論文の概要: AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual
Voice Conversion
- arxiv url: http://arxiv.org/abs/2310.06546v1
- Date: Tue, 10 Oct 2023 11:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:47:17.377921
- Title: AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual
Voice Conversion
- Title(参考訳): AutoCycle-VC: Bottleneck非依存型ゼロショット言語間音声変換を目指して
- Authors: Haeyun Choi, Jio Gim, Yuho Lee, Youngin Kim, and Young-Joo Suh
- Abstract要約: 本稿では,サイクル構造とメル-スペクトログラム前処理を備えた,シンプルで堅牢なゼロショット音声変換システムを提案する。
我々のモデルは、主観的・客観的評価において、既存の最先端の成果よりも優れています。
- 参考スコア(独自算出の注目度): 2.3443118032034396
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper proposes a simple and robust zero-shot voice conversion system
with a cycle structure and mel-spectrogram pre-processing. Previous works
suffer from information loss and poor synthesis quality due to their reliance
on a carefully designed bottleneck structure. Moreover, models relying solely
on self-reconstruction loss struggled with reproducing different speakers'
voices. To address these issues, we suggested a cycle-consistency loss that
considers conversion back and forth between target and source speakers.
Additionally, stacked random-shuffled mel-spectrograms and a label smoothing
method are utilized during speaker encoder training to extract a
time-independent global speaker representation from speech, which is the key to
a zero-shot conversion. Our model outperforms existing state-of-the-art results
in both subjective and objective evaluations. Furthermore, it facilitates
cross-lingual voice conversions and enhances the quality of synthesized speech.
- Abstract(参考訳): 本稿では,サイクル構造とメルスペクトログラム前処理を備えた簡易でロバストなゼロショット音声変換システムを提案する。
以前の作品は、注意深く設計されたボトルネック構造に依存するため、情報損失と合成品質の低下に苦しんでいた。
さらに、自己再構成損失のみに依存するモデルは、異なる話者の声の再現に苦慮した。
これらの問題に対処するため,ターゲット話者とソース話者の相互変換を考慮したサイクル一貫性損失を提案する。
また,ゼロショット変換の鍵である音声から時間非依存なグローバル話者表現を抽出するために,話者エンコーダトレーニング中にスタック型ランダムシャッフルメルスペクトログラムとラベル平滑化法を用いる。
我々のモデルは, 主観的評価と客観的評価の両方において, 既存の最先端の成果を上回っている。
さらに、言語間変換が容易になり、合成音声の品質が向上する。
関連論文リスト
- SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Timbre Transfer with Variational Auto Encoding and Cycle-Consistent
Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。
この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文 参考訳(メタデータ) (2021-09-05T15:06:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。