論文の概要: MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning
- arxiv url: http://arxiv.org/abs/2601.01568v1
- Date: Sun, 04 Jan 2026 15:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.535241
- Title: MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning
- Title(参考訳): MM-Sonate:ゼロショット音声クローンによるマルチモーダル制御可能なオーディオビデオ生成
- Authors: Chunyu Qiang, Jun Wang, Xiaopeng Wang, Kang Yin, Yuxin Guo, Xijuan Zeng, Nan Li, Zihan Li, Yuzhe Liang, Ziyu Zhang, Teng Ma, Yushen Chen, Zhongliang Liu, Feng Deng, Chen Zhang, Pengfei Wan,
- Abstract要約: MM-Sonateは、制御可能な音声とビデオのジョイント生成とゼロショット音声のクローン機能を統合するマルチモーダルフローマッチングフレームワークである。
ゼロショット音声のクローニングを可能にするため,言語コンテンツから話者識別を効果的に分離する分類器注入機構を導入する。
MM-Sonateがジョイントジェネレーションベンチマークで新しい最先端性能を確立していることを示す実証評価を行った。
- 参考スコア(独自算出の注目度): 34.40594677071386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint audio-video generation aims to synthesize synchronized multisensory content, yet current unified models struggle with fine-grained acoustic control, particularly for identity-preserving speech. Existing approaches either suffer from temporal misalignment due to cascaded generation or lack the capability to perform zero-shot voice cloning within a joint synthesis framework. In this work, we present MM-Sonate, a multimodal flow-matching framework that unifies controllable audio-video joint generation with zero-shot voice cloning capabilities. Unlike prior works that rely on coarse semantic descriptions, MM-Sonate utilizes a unified instruction-phoneme input to enforce strict linguistic and temporal alignment. To enable zero-shot voice cloning, we introduce a timbre injection mechanism that effectively decouples speaker identity from linguistic content. Furthermore, addressing the limitations of standard classifier-free guidance in multimodal settings, we propose a noise-based negative conditioning strategy that utilizes natural noise priors to significantly enhance acoustic fidelity. Empirical evaluations demonstrate that MM-Sonate establishes new state-of-the-art performance in joint generation benchmarks, significantly outperforming baselines in lip synchronization and speech intelligibility, while achieving voice cloning fidelity comparable to specialized Text-to-Speech systems.
- Abstract(参考訳): 共同音声・ビデオ生成は、同期した多感覚コンテンツを合成することを目的としているが、現在の統一モデルは、特にアイデンティティ保存音声において、きめ細かい音響制御に苦慮している。
既存のアプローチは、カスケード生成による時間的ずれや、共同合成フレームワーク内でゼロショット音声のクローニングを行う能力の欠如に悩まされている。
本研究では,制御可能な音声・ビデオ共同生成とゼロショット音声のクローニング機能を組み合わせたマルチモーダルフローマッチングフレームワークMM-Sonateを提案する。
粗い意味記述に依存する以前の作品とは異なり、MM-Sonateは厳密な言語的および時間的アライメントを強制するために統一的な命令音素入力を使用する。
ゼロショット音声のクローニングを可能にするため,言語コンテンツから話者識別を効果的に分離する音質注入機構を導入する。
さらに,マルチモーダル環境での標準分類器フリーガイダンスの限界に対処し,音質を著しく向上させるために,自然騒音の先行値を利用した雑音に基づく負条件付け手法を提案する。
実験的な評価により,MM-Sonateは共同生成ベンチマークにおいて新たな最先端性能を確立し,唇の同期や音声の明瞭度において有意に向上し,特殊なテキスト音声合成システムに匹敵する音声のクローン化を実現している。
関連論文リスト
- DiFlow-TTS: Discrete Flow Matching with Factorized Speech Tokens for Low-Latency Zero-Shot Text-To-Speech [8.537791317883576]
Zero-shot Text-to-Speech (TTS) は、短い参照サンプルのみを用いて、目に見えない話者の声を模倣する高品質な音声を合成することを目的としている。
言語モデル,拡散,フローマッチングに基づく最近のアプローチは,ゼロショットTSにおいて有望な結果を示しているが,それでも遅い推論と繰り返しアーティファクトに悩まされている。
音声合成のための純粋離散フローマッチングを探索する最初のモデルであるDiFlow-TTSを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:16:52Z) - Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。
KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。
UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-11T00:47:29Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。