論文の概要: Towards Improved Zero-shot Voice Conversion with Conditional DSVAE
- arxiv url: http://arxiv.org/abs/2205.05227v1
- Date: Wed, 11 May 2022 01:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 08:23:01.375184
- Title: Towards Improved Zero-shot Voice Conversion with Conditional DSVAE
- Title(参考訳): 条件付きDSVAEによるゼロショット音声変換の改善に向けて
- Authors: Jiachen Lian and Chunlei Zhang and Gopala Krishna Anumanchipalli and
Dong Yu
- Abstract要約: ノンパラレル音声変換では,コンテンツと発話スタイルの情報の分離が不可欠である。
本稿では,事前モデリングの条件として,コンテンツバイアスを可能にする新しいモデルである条件付きDSVAEを提案する。
条件付きDSVAEから導出されるコンテンツ埋め込みが、ランダム性を克服し、より優れた音素分類精度を実現することを実証する。
- 参考スコア(独自算出の注目度): 30.376259456529368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentangling content and speaking style information is essential for
zero-shot non-parallel voice conversion (VC). Our previous study investigated a
novel framework with disentangled sequential variational autoencoder (DSVAE) as
the backbone for information decomposition. We have demonstrated that
simultaneous disentangling content embedding and speaker embedding from one
utterance is feasible for zero-shot VC. In this study, we continue the
direction by raising one concern about the prior distribution of content branch
in the DSVAE baseline. We find the random initialized prior distribution will
force the content embedding to reduce the phonetic-structure information during
the learning process, which is not a desired property. Here, we seek to achieve
a better content embedding with more phonetic information preserved. We propose
conditional DSVAE, a new model that enables content bias as a condition to the
prior modeling and reshapes the content embedding sampled from the posterior
distribution. In our experiment on the VCTK dataset, we demonstrate that
content embeddings derived from the conditional DSVAE overcome the randomness
and achieve a much better phoneme classification accuracy, a stabilized
vocalization and a better zero-shot VC performance compared with the
competitive DSVAE baseline.
- Abstract(参考訳): ゼロショットノンパラレル音声変換(VC)には,コンテンツと発話スタイルの情報の分離が不可欠である。
本研究は,情報分解のバックボーンとして,不連続な逐次変分オートエンコーダ(dsvae)を用いた新しい枠組みについて検討した。
ゼロショットVCでは、ある発話からコンテンツ埋め込みと話者埋め込みを同時に切り離すことが可能であることを示した。
そこで本研究では,DSVAEベースラインにおけるコンテンツブランチの事前分布に関する懸念を提起し,方向性を継続する。
ランダム初期化事前分布は,学習過程中の音声構造情報を減らすためにコンテンツ埋め込みを強制するが,これは望ましい性質ではない。
ここでは、より多くの音声情報を保存したより優れたコンテンツ埋め込みの実現を目指す。
条件付きdsvaeは,事前モデリングの条件としてコンテンツバイアスを許容し,後方分布からサンプリングしたコンテンツ埋め込みを再構成する新しいモデルである。
VCTKデータセットを用いた実験では、条件付きDSVAEから導出されるコンテンツ埋め込みがランダム性を克服し、より優れた音素分類精度、安定した発声、および競合するDSVAEベースラインと比較してゼロショットVC性能を実現することを示した。
関連論文リスト
- CTEFM-VC: Zero-Shot Voice Conversion Based on Content-Aware Timbre Ensemble Modeling and Flow Matching [7.144608815694702]
CTEFM-VCは、発話を言語内容と音色表現に分解するフレームワークである。
音色モデリング能力と生成音声の自然性を高めるため,文脈を考慮した音色アンサンブルモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:23:17Z) - Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling [14.98368067290024]
Takin-VCは、新しいゼロショットVCフレームワークである。
実験結果から,Takin-VC法は最先端のゼロショットVCシステムを上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion [17.274784447811665]
我々は、高品質な波形再構成のためのVITSのエンドツーエンドフレームワークを採用する。
We disentangle content information by imposing an information bottleneck to WavLM features。
本稿では,抽出したコンテンツ情報の純度を向上させるために,分光器サイズに基づくデータ拡張を提案する。
論文 参考訳(メタデータ) (2022-10-27T13:32:38Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。