論文の概要: GenVC: Self-Supervised Zero-Shot Voice Conversion
- arxiv url: http://arxiv.org/abs/2502.04519v1
- Date: Thu, 06 Feb 2025 21:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:55:33.079414
- Title: GenVC: Self-Supervised Zero-Shot Voice Conversion
- Title(参考訳): GenVC: セルフスーパービジョンゼロショット音声変換
- Authors: Zexin Cai, Henry Li Xinyuan, Ashi Garg, Leibny Paola García-Perera, Kevin Duh, Sanjeev Khudanpur, Matthew Wiesner, Nicholas Andrews,
- Abstract要約: GenVCはゼロショット音声変換モデルである。
言語内容と話者のスタイルを自己指導的に切り離すことを学ぶ。
音源の韻律と話者特性の保存を最小限に抑えるため,音声の匿名化に極めて有効である。
- 参考スコア(独自算出の注目度): 31.94758615908198
- License:
- Abstract: Zero-shot voice conversion has recently made substantial progress, but many models still depend on external supervised systems to disentangle speaker identity and linguistic content. Furthermore, current methods often use parallel conversion, where the converted speech inherits the source utterance's temporal structure, restricting speaker similarity and privacy. To overcome these limitations, we introduce GenVC, a generative zero-shot voice conversion model. GenVC learns to disentangle linguistic content and speaker style in a self-supervised manner, eliminating the need for external models and enabling efficient training on large, unlabeled datasets. Experimental results show that GenVC achieves state-of-the-art speaker similarity while maintaining naturalness competitive with leading approaches. Its autoregressive generation also allows the converted speech to deviate from the source utterance's temporal structure. This feature makes GenVC highly effective for voice anonymization, as it minimizes the preservation of source prosody and speaker characteristics, enhancing privacy protection.
- Abstract(参考訳): ゼロショット音声変換は近年大きな進歩を遂げているが、多くのモデルは話者のアイデンティティと言語的コンテンツをアンタングルする外部教師システムに依存している。
さらに、現在の手法では、変換された音声がソース発話の時間構造を継承し、話者の類似性とプライバシーを制限する並列変換を用いることが多い。
これらの制限を克服するために、生成ゼロショット音声変換モデルであるGenVCを導入する。
GenVCは、言語内容と話者スタイルを自己管理的に切り離すことを学び、外部モデルの必要性を排除し、大規模でラベルのないデータセットの効率的なトレーニングを可能にする。
実験の結果,GenVCは先進的なアプローチと競合する自然性を維持しつつ,最先端の話者類似性を達成していることがわかった。
その自己回帰生成により、変換された音声は、元の発話の時間構造から逸脱する。
この機能により、GenVCは、ソースの韻律と話者特性の保存を最小化し、プライバシー保護を強化するため、音声匿名化に非常に効果的である。
関連論文リスト
- AdaptVC: High Quality Voice Conversion with Adaptive Learning [28.25726543043742]
鍵となる課題は、ソースと音声スタイルから絡み合った言語コンテンツを抽出することである。
本稿では,アダプタを用いた自己教師型音声特徴の調整により,コンテンツと話者の特徴のアンタングル化を成功させる。
アダプタは、リッチな自己教師付き特徴からニュアンス特徴を動的に符号化するように訓練され、デコーダはそれらを融合して参照に正確に類似した音声を生成する。
論文 参考訳(メタデータ) (2025-01-02T16:54:08Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross
Attention [24.842378497026154]
SEF-VCは、話者埋め込み自由音声変換モデルである。
話者の音色を、強力な位置非依存のクロスアテンション機構を通じて参照音声から学習し、組み込む。
HuBERTセマンティックトークンからの波形を非自己回帰的に再構成する。
論文 参考訳(メタデータ) (2023-12-14T06:26:55Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - HiFi-VC: High Quality ASR-Based Voice Conversion [0.0]
音声変換パイプラインを新たに提案する。
提案手法では,音声認識機能,ピッチ追跡,最先端波形予測モデルを用いる。
論文 参考訳(メタデータ) (2022-03-31T10:45:32Z) - Beyond Voice Identity Conversion: Manipulating Voice Attributes by
Adversarial Learning of Structured Disentangled Representations [12.139222986297263]
本稿では,音声属性の操作を可能にするニューラルアーキテクチャを提案する。
複数の自動エンコーダを用いて、理想主義的に独立した言語的および言語外表現の集合として音声を符号化する、構造化ニューラルネットワークが提案されている。
提案アーキテクチャは、リップ同期アプリケーションを可能にする変換中に元の音声タイミングが保存されるように時間同期される。
論文 参考訳(メタデータ) (2021-07-26T17:40:43Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。