論文の概要: EZ-VC: Easy Zero-shot Any-to-Any Voice Conversion
- arxiv url: http://arxiv.org/abs/2505.16691v1
- Date: Thu, 22 May 2025 13:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.342106
- Title: EZ-VC: Easy Zero-shot Any-to-Any Voice Conversion
- Title(参考訳): EZ-VC:使い勝手の良いゼロショット音声変換
- Authors: Advait Joglekar, Divyanshu Singh, Rooshil Rohit Bhatia, S. Umesh,
- Abstract要約: 離散音声表現と非自己回帰拡散変換器に基づく条件付きフローマッチング音声デコーダを組み合わせた,単純かつ効果的なアプローチを採用する。
我々のモデルは、目に見えない言語であっても、ゼロショットの言語間設定でも優れています。
- 参考スコア(独自算出の注目度): 0.3749861135832073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice Conversion research in recent times has increasingly focused on improving the zero-shot capabilities of existing methods. Despite remarkable advancements, current architectures still tend to struggle in zero-shot cross-lingual settings. They are also often unable to generalize for speakers of unseen languages and accents. In this paper, we adopt a simple yet effective approach that combines discrete speech representations from self-supervised models with a non-autoregressive Diffusion-Transformer based conditional flow matching speech decoder. We show that this architecture allows us to train a voice-conversion model in a purely textless, self-supervised fashion. Our technique works without requiring multiple encoders to disentangle speech features. Our model also manages to excel in zero-shot cross-lingual settings even for unseen languages.
- Abstract(参考訳): 近年、音声変換の研究は、既存の手法のゼロショット機能の改善に重点を置いている。
目覚ましい進歩にもかかわらず、現在のアーキテクチャは依然としてゼロショットの言語間設定で苦労する傾向にある。
彼らはしばしば、目に見えない言語やアクセントの話者に対して一般化できない。
本稿では,自己教師型モデルと非自己回帰拡散変換器を用いた条件付きフローマッチング音声デコーダを組み合わせた,単純かつ効果的な手法を提案する。
このアーキテクチャにより、純粋にテキストレスで自己管理的な方法で音声変換モデルをトレーニングできることを示す。
本手法は,複数のエンコーダを必要とせずに音声特徴をアンタングルする。
我々のモデルは、目に見えない言語であっても、ゼロショットの言語間設定でも優れています。
関連論文リスト
- Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - StarGAN-ZSVC: Towards Zero-Shot Voice Conversion in Low-Resource
Contexts [32.170748231414365]
より広い範囲の文脈で有効にするためには、音声変換システムは並列データにアクセスせずに訓練する必要がある。
本稿では,GAN(Generative Adversarial Network)に基づく最新の音声変換モデルを拡張する。
非常に少ないデータで訓練されたモデルであっても、リアルタイムゼロショット音声変換が可能であることを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:28Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。