論文の概要: Unsupervised Representation Disentanglement using Cross Domain Features
and Adversarial Learning in Variational Autoencoder based Voice Conversion
- arxiv url: http://arxiv.org/abs/2001.07849v3
- Date: Fri, 7 Feb 2020 10:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:02:44.429990
- Title: Unsupervised Representation Disentanglement using Cross Domain Features
and Adversarial Learning in Variational Autoencoder based Voice Conversion
- Title(参考訳): 変分オートエンコーダに基づく音声変換におけるクロスドメイン特徴と逆学習を用いた教師なし表現不等角化
- Authors: Wen-Chin Huang, Hao Luo, Hsin-Te Hwang, Chen-Chou Lo, Yu-Huai Peng, Yu
Tsao, Hsin-Min Wang
- Abstract要約: 音声変換(VC)の効果的なアプローチは、音声信号の他のコンポーネントから言語内容を切り離すことである。
本稿では,逆学習の概念を取り入れ,CDVAE-VCフレームワークを拡張した。
- 参考スコア(独自算出の注目度): 28.085498706505774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An effective approach for voice conversion (VC) is to disentangle linguistic
content from other components in the speech signal. The effectiveness of
variational autoencoder (VAE) based VC (VAE-VC), for instance, strongly relies
on this principle. In our prior work, we proposed a cross-domain VAE-VC
(CDVAE-VC) framework, which utilized acoustic features of different properties,
to improve the performance of VAE-VC. We believed that the success came from
more disentangled latent representations. In this paper, we extend the CDVAE-VC
framework by incorporating the concept of adversarial learning, in order to
further increase the degree of disentanglement, thereby improving the quality
and similarity of converted speech. More specifically, we first investigate the
effectiveness of incorporating the generative adversarial networks (GANs) with
CDVAE-VC. Then, we consider the concept of domain adversarial training and add
an explicit constraint to the latent representation, realized by a speaker
classifier, to explicitly eliminate the speaker information that resides in the
latent code. Experimental results confirm that the degree of disentanglement of
the learned latent representation can be enhanced by both GANs and the speaker
classifier. Meanwhile, subjective evaluation results in terms of quality and
similarity scores demonstrate the effectiveness of our proposed methods.
- Abstract(参考訳): 音声変換(VC)の効果的なアプローチは、音声信号の他のコンポーネントから言語内容を切り離すことである。
例えば、可変オートエンコーダ(VAE)ベースのVC(VAE-VC)の有効性は、この原理に強く依存している。
本研究では,VAE-VCの性能向上のために,異なる特性の音響特性を利用するクロスドメインVAE-VC(CDVAE-VC)フレームワークを提案する。
私たちは、この成功はより行き詰まった潜在表現によるものだと信じていた。
本稿では,逆学習の概念を取り入れたCDVAE-VCフレームワークを拡張して,さらに絡み合いの度合いを高め,変換音声の品質と類似性を向上させる。
具体的には,CDVAE-VCにGAN(Generative Adversarial Network)を組み込むことの有効性について検討する。
次に、ドメイン敵訓練の概念を検討し、話者分類器によって実現された潜在表現に明示的な制約を加え、潜在コードに存在する話者情報を明示的に排除する。
実験結果から,学習した潜在表現のアンタングル化の度合いは,GANと話者分類器の両方で向上できることが確認された。
一方,品質や類似度の観点からの主観的評価を行った結果,提案手法の有効性が示された。
関連論文リスト
- Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Adversarial Speaker Disentanglement Using Unannotated External Data for
Self-supervised Representation Based Voice Conversion [35.23123094710891]
SSL表現を入力した高相似性ノン・ワン音声変換法を提案する。
実験の結果,本手法は教師付き手法と同等の類似性と自然性が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-16T04:52:29Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion [5.538544897623972]
変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
論文 参考訳(メタデータ) (2021-12-06T05:54:11Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。