論文の概要: Towards Improved Zero-shot Voice Conversion with Conditional DSVAE
- arxiv url: http://arxiv.org/abs/2205.05227v1
- Date: Wed, 11 May 2022 01:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 08:23:01.375184
- Title: Towards Improved Zero-shot Voice Conversion with Conditional DSVAE
- Title(参考訳): 条件付きDSVAEによるゼロショット音声変換の改善に向けて
- Authors: Jiachen Lian and Chunlei Zhang and Gopala Krishna Anumanchipalli and
Dong Yu
- Abstract要約: ノンパラレル音声変換では,コンテンツと発話スタイルの情報の分離が不可欠である。
本稿では,事前モデリングの条件として,コンテンツバイアスを可能にする新しいモデルである条件付きDSVAEを提案する。
条件付きDSVAEから導出されるコンテンツ埋め込みが、ランダム性を克服し、より優れた音素分類精度を実現することを実証する。
- 参考スコア(独自算出の注目度): 30.376259456529368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentangling content and speaking style information is essential for
zero-shot non-parallel voice conversion (VC). Our previous study investigated a
novel framework with disentangled sequential variational autoencoder (DSVAE) as
the backbone for information decomposition. We have demonstrated that
simultaneous disentangling content embedding and speaker embedding from one
utterance is feasible for zero-shot VC. In this study, we continue the
direction by raising one concern about the prior distribution of content branch
in the DSVAE baseline. We find the random initialized prior distribution will
force the content embedding to reduce the phonetic-structure information during
the learning process, which is not a desired property. Here, we seek to achieve
a better content embedding with more phonetic information preserved. We propose
conditional DSVAE, a new model that enables content bias as a condition to the
prior modeling and reshapes the content embedding sampled from the posterior
distribution. In our experiment on the VCTK dataset, we demonstrate that
content embeddings derived from the conditional DSVAE overcome the randomness
and achieve a much better phoneme classification accuracy, a stabilized
vocalization and a better zero-shot VC performance compared with the
competitive DSVAE baseline.
- Abstract(参考訳): ゼロショットノンパラレル音声変換(VC)には,コンテンツと発話スタイルの情報の分離が不可欠である。
本研究は,情報分解のバックボーンとして,不連続な逐次変分オートエンコーダ(dsvae)を用いた新しい枠組みについて検討した。
ゼロショットVCでは、ある発話からコンテンツ埋め込みと話者埋め込みを同時に切り離すことが可能であることを示した。
そこで本研究では,DSVAEベースラインにおけるコンテンツブランチの事前分布に関する懸念を提起し,方向性を継続する。
ランダム初期化事前分布は,学習過程中の音声構造情報を減らすためにコンテンツ埋め込みを強制するが,これは望ましい性質ではない。
ここでは、より多くの音声情報を保存したより優れたコンテンツ埋め込みの実現を目指す。
条件付きdsvaeは,事前モデリングの条件としてコンテンツバイアスを許容し,後方分布からサンプリングしたコンテンツ埋め込みを再構成する新しいモデルである。
VCTKデータセットを用いた実験では、条件付きDSVAEから導出されるコンテンツ埋め込みがランダム性を克服し、より優れた音素分類精度、安定した発声、および競合するDSVAEベースラインと比較してゼロショットVC性能を実現することを示した。
- 全文 参考訳へのリンク
関連論文リスト
- Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - Variational Autoencoder with Disentanglement Priors for Low-Resource
Task-Specific Natural Language Generation [48.09206838892326]
本研究では,条件付き自然言語生成のための乱れ前処理付き変分自動エンコーダ VAE-DPRIOR を提案する。
我々のモデルは、潜在コンテンツ空間の先行と潜在ラベル空間の先行を導入することで、非交叉表現学習を行う。
論文 参考訳(メタデータ) (2022-02-27T13:34:24Z) - Conditional Deep Hierarchical Variational Autoencoder for Voice
Conversion [5.538544897623972]
変分オートエンコーダに基づく音声変換(VAE-VC)は、訓練のために音声と話者ラベルのペアだけを必要とする利点がある。
本稿では, モデル表現性の増加がVAE-VCに与える影響について検討する。
論文 参考訳(メタデータ) (2021-12-06T05:54:11Z) - StreamHover: Livestream Transcript Summarization and Annotation [54.41877742041611]
ライブストリームの書き起こしを注釈付けして要約するフレームワークであるStreamHoverを紹介します。
合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。
我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-09-11T02:19:37Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - A learned conditional prior for the VAE acoustic space of a TTS system [17.26941119364184]
変分オートエンコーダ(VAE)のような生成モデルは、この変数をキャプチャし、サンプリングによって同じ文を複数再送することができる。
ニューラルテキスト音声(TTS)システムにおいて,VAE潜時空間の先行情報を計算する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-14T15:36:16Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - NoiseVC: Towards High Quality Zero-Shot Voice Conversion [2.3224617218247126]
NoiseVC は、VQ と Contrastive Predictive Coding (CPC) に基づいてコンテンツを切り離すことができるアプローチである。
我々は,いくつかの実験を行い,ノイズvcは品質を犠牲にして,強い絡み合い能力を持つことを実証する。
論文 参考訳(メタデータ) (2021-04-13T10:12:38Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。