論文の概要: VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching
- arxiv url: http://arxiv.org/abs/2501.17612v1
- Date: Wed, 29 Jan 2025 12:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:10.924331
- Title: VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching
- Title(参考訳): Voice Prompter:Voice Promptと条件付きフローマッチングを用いたロバストゼロショット音声変換
- Authors: Ha-Yeong Choi, Jaehan Park,
- Abstract要約: VoicePrompterは、音声プロンプトでコンテキスト内学習を活用する、堅牢なゼロショット音声変換モデルである。
我々はVoicePrompterが既存のゼロショットVCシステムよりも、話者の類似性、音声のインテリジェンス、音質で優れていることを示す。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License:
- Abstract: Despite remarkable advancements in recent voice conversion (VC) systems, enhancing speaker similarity in zero-shot scenarios remains challenging. This challenge arises from the difficulty of generalizing and adapting speaker characteristics in speech within zero-shot environments, which is further complicated by mismatch between the training and inference processes. To address these challenges, we propose VoicePrompter, a robust zero-shot VC model that leverages in-context learning with voice prompts. VoicePrompter is composed of (1) a factorization method that disentangles speech components and (2) a DiT-based conditional flow matching (CFM) decoder that conditions on these factorized features and voice prompts. Additionally, (3) latent mixup is used to enhance in-context learning by combining various speaker features. This approach improves speaker similarity and naturalness in zero-shot VC by applying mixup to latent representations. Experimental results demonstrate that VoicePrompter outperforms existing zero-shot VC systems in terms of speaker similarity, speech intelligibility, and audio quality. Our demo is available at \url{https://hayeong0.github.io/VoicePrompter-demo/}.
- Abstract(参考訳): 近年の音声変換システム(VC)の進歩にもかかわらず、ゼロショットシナリオにおける話者類似性の向上は依然として困難である。
この課題は、ゼロショット環境における話者特性の一般化と適応が困難であることから生じ、学習過程と推論過程のミスマッチによりさらに複雑になる。
これらの課題に対処するため,ボイスプロンプトを用いたコンテキスト内学習を活用した堅牢なゼロショットVCモデルであるVoicePrompterを提案する。
VoicePrompterは(1)音声成分をアンタングル化する分解法と(2)これらの因子化特徴と音声プロンプトを条件としたDiTベースの条件付きフローマッチング(CFM)デコーダから構成される。
さらに、(3)ラテント・ミックスアップは、様々な話者特徴を組み合わせることで、コンテキスト内学習を強化するために用いられる。
このアプローチは、遅延表現にミックスアップを適用することにより、ゼロショットVCの話者類似性と自然性を改善する。
実験の結果,VoicePrompterは既存のゼロショットVCシステムよりも話者の類似性,音声の可聴性,音質に優れていた。
私たちのデモは \url{https://hayeong0.github.io/VoicePrompter-demo/} で公開されています。
関連論文リスト
- Zero-shot Voice Conversion with Diffusion Transformers [0.0]
ゼロショット音声変換は、参照音声の音色を未知の話者から一致させるために、音源音声の発話を変換することを目的としている。
従来のアプローチでは、音色漏れ、音色表現の不十分、トレーニングと推論のミスマッチに悩まされていた。
トレーニング中に外部の音色シフタを導入することで,これらの問題に対処する新しいフレームワークであるSeed-VCを提案する。
論文 参考訳(メタデータ) (2024-11-15T04:43:44Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。