論文の概要: CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching
- arxiv url: http://arxiv.org/abs/2506.00885v1
- Date: Sun, 01 Jun 2025 07:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.71767
- Title: CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching
- Title(参考訳): CoVoMix2: 完全非自己回帰フローマッチングによるゼロショット対話生成の改善
- Authors: Leying Zhang, Yao Qian, Xiaofei Wang, Manthan Thakker, Dongmei Wang, Jianwei Yu, Haibin Wu, Yuxuan Hu, Jinyu Li, Yanmin Qian, Sheng Zhao,
- Abstract要約: CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 79.0241611035794
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating natural-sounding, multi-speaker dialogue is crucial for applications such as podcast creation, virtual agents, and multimedia content generation. However, existing systems struggle to maintain speaker consistency, model overlapping speech, and synthesize coherent conversations efficiently. In this paper, we introduce CoVoMix2, a fully non-autoregressive framework for zero-shot multi-talker dialogue generation. CoVoMix2 directly predicts mel-spectrograms from multi-stream transcriptions using a flow-matching-based generative model, eliminating the reliance on intermediate token representations. To better capture realistic conversational dynamics, we propose transcription-level speaker disentanglement, sentence-level alignment, and prompt-level random masking strategies. Our approach achieves state-of-the-art performance, outperforming strong baselines like MoonCast and Sesame in speech quality, speaker consistency, and inference speed. Notably, CoVoMix2 operates without requiring transcriptions for the prompt and supports controllable dialogue generation, including overlapping speech and precise timing control, demonstrating strong generalizability to real-world speech generation scenarios.
- Abstract(参考訳): ポッドキャスト作成、仮想エージェント、マルチメディアコンテンツ生成などのアプリケーションには、自然音の多話者対話の生成が不可欠である。
しかし、既存のシステムは、話者の一貫性を維持し、重なり合う音声をモデル化し、コヒーレントな会話を効率的に合成するのに苦労している。
本稿では,ゼロショット多話者対話生成のための完全非自己回帰フレームワークであるCoVoMix2を紹介する。
CoVoMix2は、フローマッチングベースの生成モデルを用いて、マルチストリーム転写からのメルスペクトルを直接予測し、中間トークン表現への依存をなくす。
現実的な会話のダイナミクスをよりよく捉えるために,文字レベルの話者の絡み合い,文レベルのアライメント,プロンプトレベルのランダムマスキング戦略を提案する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
特に、CoVoMix2はプロンプトの書き起こしを必要とせずに動作し、重複した音声と正確なタイミング制御を含む制御可能な対話生成をサポートし、現実世界の音声生成シナリオに強力な一般化性を示す。
関連論文リスト
- OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - Towards human-like spoken dialogue generation between AI agents from
written dialogue [8.4989907582951]
本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。
本システムでは,話者側とリスナー側の両方に対して,話者側からの書き起こしのみを用いて同時に音声を生成することができる。
論文 参考訳(メタデータ) (2023-10-02T11:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。