論文の概要: MoCoTalk: Multi-Conditional Diffusion with Adaptive Router for Controllable Talking Head Generation
- arxiv url: http://arxiv.org/abs/2605.08050v1
- Date: Fri, 08 May 2026 17:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.246768
- Title: MoCoTalk: Multi-Conditional Diffusion with Adaptive Router for Controllable Talking Head Generation
- Title(参考訳): MoCoTalk: 制御可能なトーキングヘッド生成のための適応ルータ付きマルチコンディショナル拡散
- Authors: Xinyan Ye, Jiankang Deng, Abbas Edalat,
- Abstract要約: MoCoTalkは、4つの相補的な制御信号を統一する多条件ビデオ拡散フレームワークである。
Adaptive Multi-Condition Routerは、4つの条件ストリーム上のチャネルワイドでタイムステップ対応のゲーティングを計算する。
Mouth-Augmented Shading Meshは3DMMベースの表現で、頭部の動き、口の動き、表情、照明を分離する。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Talking-head generation requires joint modeling of identity, head pose, facial expression, and mouth dynamics. Existing methods typically address only a subset of these factors, and rely on fixed-weight or heuristic fusion when multiple conditions are involved. We present MoCoTalk, a multi-conditional video diffusion framework that unifies four complementary control signals: a reference image, facial keypoints, 3DMM-rendered shading meshes, and the corresponding speech audio. To resolve destructive interference among heterogeneous conditions, we introduce an Adaptive Multi-Condition Router that computes channel-wise, timestep-aware gating over the four condition streams, allowing the fusion strategy to vary with both feature subspace and noise level. To better capture speech-related facial dynamics, we design a Mouth-Augmented Shading Mesh, a 3DMM-based representation that decouples head motion, mouth motion, expression, and lighting. This design provides a temporally consistent geometric prior and allows flexible recombination of these attributes at inference. We further introduce a lip consistency loss to tighten audio-visual alignment. Extensive experiments show that MoCoTalk achieves state-of-the-art performance on the majority of structural, motion, and perceptual metrics, while offering attribute-level controllability that single-condition methods do not provide.
- Abstract(参考訳): トーキングヘッド生成には、アイデンティティ、頭ポーズ、表情、口のダイナミックスを共同でモデリングする必要がある。
既存の方法は通常これらの要素のサブセットにのみ対応し、複数の条件が関係している場合、固定重またはヒューリスティック融合に依存する。
提案するMoCoTalkは,参照画像,顔キーポイント,3DMMレンダリングシェーディングメッシュ,および対応する音声音声の4つの相補的制御信号を統一する多条件ビデオ拡散フレームワークである。
不均一な条件間の破壊的干渉を解決するために,4つの条件ストリーム上のチャネルワイドでタイムステップ対応のゲーティングを演算し,特徴部分空間と雑音レベルの両方で融合戦略を変更できる適応型マルチコンディション・ルータを導入する。
そこで我々は,頭部の動き,口の動き,表情,照明を3DMMで表現するMouth-Augmented Shading Meshを設計した。
この設計は時間的に一貫した幾何学的事前を提供し、推論時にこれらの属性の柔軟な再結合を可能にする。
さらに,音声・視覚的アライメントの強化を目的とした唇の整合性低下も導入する。
大規模な実験によると、MoCoTalkは、構造的、運動的、知覚的メトリクスの大部分で最先端のパフォーマンスを達成し、一方、単一条件法では提供されない属性レベルの制御性を提供する。
関連論文リスト
- HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [90.74616208952791]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control [19.384766996505927]
3Dトーキングフェイス法は, 正確な唇同期と制御可能な表情を提供する必要がある。
粗い時間的・きめ細かい制御条件を同時に組み込んだ拡散変換器を用いた3次元音声合成モデルCafe-Talkを提案する。
実験により, Cafe-Talkは最先端の唇同期と表現性を達成し, ユーザスタディにおけるきめ細かい制御において広く受け入れられていることが証明された。
論文 参考訳(メタデータ) (2025-03-14T02:52:41Z) - SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。