論文の概要: MoDA: Multi-modal Diffusion Architecture for Talking Head Generation
- arxiv url: http://arxiv.org/abs/2507.03256v1
- Date: Fri, 04 Jul 2025 02:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.639719
- Title: MoDA: Multi-modal Diffusion Architecture for Talking Head Generation
- Title(参考訳): MoDA: 対話型ヘッドジェネレーションのためのマルチモーダル拡散アーキテクチャ
- Authors: Xinyang Li, Gen Li, Zhihui Lin, Yichen Qian, GongXin Yao, Weinan Jia, Weihua Chen, Fan Wang,
- Abstract要約: MoDAは、モーション生成とニューラルレンダリングをブリッジするためのジョイントパラメータ空間を実装し、フローマッチングを活用して拡散学習プロセスを単純化する。
実験結果から,MoDAは映像の多様性,リアリズム,効率性を著しく向上し,実世界のアプリケーションに適したものとなった。
- 参考スコア(独自算出の注目度): 18.72134266121745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head generation with arbitrary identities and speech audio remains a crucial problem in the realm of digital humans and the virtual metaverse. Recently, diffusion models have become a popular generative technique in this field with their strong generation and generalization capabilities. However, several challenges remain for diffusion-based methods: 1) inefficient inference and visual artifacts, which arise from the implicit latent space of Variational Auto-Encoders (VAE), complicating the diffusion process; 2) authentic facial expressions and head movements, resulting from insufficient multi-modal information interaction. In this paper, MoDA handle these challenges by 1) defines a joint parameter space to bridge motion generation and neural rendering, and leverages flow matching to simplify the diffusion learning process; 2) introduces a multi-modal diffusion architecture to model the interaction among noisy motion, audio, and auxiliary conditions, ultimately enhancing overall facial expressiveness. Subsequently, a coarse-to-fine fusion strategy is adopted to progressively integrate different modalities, ensuring effective integration across feature spaces. Experimental results demonstrate that MoDA significantly improves video diversity, realism, and efficiency, making it suitable for real-world applications.
- Abstract(参考訳): 任意のアイデンティティと音声によるヘッドジェネレーションは、デジタル人間と仮想メタバースの領域において重要な問題である。
近年、拡散モデルは、その強力な生成と一般化能力によって、この分野で一般的な生成技術となっている。
しかし、拡散に基づく方法にはいくつかの課題が残されている。
1) 拡散過程を複雑にする変分自動エンコーダ(VAE)の暗黙の潜伏空間から生じる非効率な推論及び視覚的アーティファクト
2) 顔の表情と頭部の動きは, 多モーダル情報との相互作用が不十分であった。
本稿では,MoDAがこれらの課題に対処する。
1) 動作生成とニューラルレンダリングをブリッジするための関節パラメータ空間を定義し、フローマッチングを活用して拡散学習プロセスを簡素化する。
2) マルチモーダル拡散アーキテクチャを導入し, 雑音, 音声, 補助条件間の相互作用をモデル化し, 顔の全体表現性を向上する。
その後、様々なモダリティを段階的に統合し、特徴空間間の効果的な統合を確保するために、粗大な融合戦略が採用される。
実験結果から,MoDAは映像の多様性,リアリズム,効率性を著しく向上し,実世界のアプリケーションに適したものとなった。
関連論文リスト
- MotionGPT3: Human Motion as a Second Modality [20.804747077748953]
人間の動きを第2のモーダルとして扱うバイモーダルモーション言語モデルであるMotionGPT3を提案する。
言語知性を維持するために、テキストブランチは、事前訓練された言語モデルの本来の構造とパラメータを保持する。
本手法は,動作理解タスクと生成タスクの両方において,競合性能を実現する。
論文 参考訳(メタデータ) (2025-06-30T17:42:22Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer [24.166147954731652]
多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T15:35:50Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models [22.044020889631188]
マルチモーダル統合によるジェスチャーの多様性とリズムを向上させるMambaTalkを紹介する。
我々の手法は最先端のモデルの性能と一致するか超えている。
論文 参考訳(メタデータ) (2024-03-14T15:10:54Z) - Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-18T06:30:39Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。