論文の概要: TGAVC: Improving Autoencoder Voice Conversion with Text-Guided and
Adversarial Training
- arxiv url: http://arxiv.org/abs/2208.04035v1
- Date: Mon, 8 Aug 2022 10:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 14:06:22.788181
- Title: TGAVC: Improving Autoencoder Voice Conversion with Text-Guided and
Adversarial Training
- Title(参考訳): TGAVC:テキストガイドと逆学習による自動エンコーダ音声変換の改善
- Authors: Huaizhen Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Zhen Zeng,
Edward Xiao, Jing Xiao
- Abstract要約: 新しい音声変換フレームワーク $boldsymbol T$ext $boldsymbol G$uided $boldsymbol A$utoVC(TGAVC)
音声から抽出した推定内容の話者識別情報を除去するために、逆トレーニングを適用する。
AIShell-3データセットの実験により、提案モデルは変換された音声の自然性や類似性の観点からAutoVCより優れていることが示された。
- 参考スコア(独自算出の注目度): 32.35100329067037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-parallel many-to-many voice conversion remains an interesting but
challenging speech processing task. Recently, AutoVC, a conditional autoencoder
based method, achieved excellent conversion results by disentangling the
speaker identity and the speech content using information-constraining
bottlenecks. However, due to the pure autoencoder training method, it is
difficult to evaluate the separation effect of content and speaker identity. In
this paper, a novel voice conversion framework, named $\boldsymbol T$ext
$\boldsymbol G$uided $\boldsymbol A$utoVC(TGAVC), is proposed to more
effectively separate content and timbre from speech, where an expected content
embedding produced based on the text transcriptions is designed to guide the
extraction of voice content. In addition, the adversarial training is applied
to eliminate the speaker identity information in the estimated content
embedding extracted from speech. Under the guidance of the expected content
embedding and the adversarial training, the content encoder is trained to
extract speaker-independent content embedding from speech. Experiments on
AIShell-3 dataset show that the proposed model outperforms AutoVC in terms of
naturalness and similarity of converted speech.
- Abstract(参考訳): 非並列多対多音声変換は、興味深いが難解な音声処理課題である。
近年,条件付きオートエンコーダ方式のautovcが,情報制約ボトルネックを用いた話者識別と音声コンテンツの分離により,優れた変換結果を得た。
しかし、純粋なオートエンコーダ学習法により、コンテンツと話者識別の分離効果を評価することは困難である。
本稿では,音声からコンテンツと音色をより効果的に分離するために,新たな音声変換フレームワークである$\boldsymbol T$ext $\boldsymbol G$uided $\boldsymbol A$utoVC(TGAVC)を提案する。
また、音声から抽出した推定コンテンツ埋め込みにおける話者識別情報を排除するために、逆訓練を適用する。
コンテンツエンコーダは、期待されるコンテンツエンベロープと敵対的トレーニングの指導のもと、音声から話者に依存しないコンテンツを抽出するように訓練される。
AIShell-3データセットの実験により、提案モデルは変換された音声の自然性や類似性の観点からAutoVCより優れていることが示された。
関連論文リスト
- SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Adversarial Speaker Disentanglement Using Unannotated External Data for
Self-supervised Representation Based Voice Conversion [35.23123094710891]
SSL表現を入力した高相似性ノン・ワン音声変換法を提案する。
実験の結果,本手法は教師付き手法と同等の類似性と自然性が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-16T04:52:29Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。