論文の概要: MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation
- arxiv url: http://arxiv.org/abs/2507.05092v1
- Date: Mon, 07 Jul 2025 15:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.470499
- Title: MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation
- Title(参考訳): MoDiT:対話型頭部生成のための拡散変換器を用いた高一貫性3次元運動係数学習
- Authors: Yucheng Wang, Dan Xu,
- Abstract要約: MoDiT は 3D Morphable Model (3DMM) と Diffusion-based Transformer を組み合わせた新しいフレームワークである。
i) 時間的注意と偏りのある自己/横断的意識のメカニズムを改良した階層的認知戦略により, モデルによる唇同期の洗練が可能となった。
2) 空間的制約を明確化し, 正確な3次元インフォームド光流予測を実現するための3次元MM係数の統合。
- 参考スコア(独自算出の注目度): 16.202732894319084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking head generation is critical for applications such as virtual assistants, video games, and films, where natural lip movements are essential. Despite progress in this field, challenges remain in producing both consistent and realistic facial animations. Existing methods, often based on GANs or UNet-based diffusion models, face three major limitations: (i) temporal jittering caused by weak temporal constraints, resulting in frame inconsistencies; (ii) identity drift due to insufficient 3D information extraction, leading to poor preservation of facial identity; and (iii) unnatural blinking behavior due to inadequate modeling of realistic blink dynamics. To address these issues, we propose MoDiT, a novel framework that combines the 3D Morphable Model (3DMM) with a Diffusion-based Transformer. Our contributions include: (i) A hierarchical denoising strategy with revised temporal attention and biased self/cross-attention mechanisms, enabling the model to refine lip synchronization and progressively enhance full-face coherence, effectively mitigating temporal jittering. (ii) The integration of 3DMM coefficients to provide explicit spatial constraints, ensuring accurate 3D-informed optical flow prediction and improved lip synchronization using Wav2Lip results, thereby preserving identity consistency. (iii) A refined blinking strategy to model natural eye movements, with smoother and more realistic blinking behaviors.
- Abstract(参考訳): 音声駆動音声ヘッド生成は、自然な唇の動きが不可欠である仮想アシスタント、ビデオゲーム、映画などのアプリケーションに不可欠である。
この分野での進歩にもかかわらず、一貫した顔アニメーションと現実的な顔アニメーションの両方を制作する際の課題は残る。
GANやUNetベースの拡散モデルに基づく既存の手法は、以下の3つの大きな制限に直面している。
一 時間的制約の弱さによる時間的揺らぎで、フレームの不整合が生じること。
(二)3次元情報の抽出が不十分なため、顔認証の保存が不十分なためアイデンティティドリフト、及び
三 現実的点滅力学の不十分なモデリングによる不自然な点滅挙動
これらの問題に対処するために,3次元形態モデル(3DMM)と拡散型変換器を組み合わせた新しいフレームワークであるMoDiTを提案する。
コントリビューションには以下のものがある。
一 時間的注意を補正し、自己/横断的注意をバイアスした階層的認知戦略により、唇の同期を洗練させ、顔のコヒーレンスを徐々に強化し、時間的ジッタリングを効果的に緩和する。
2)3次元MM係数の統合による空間的制約の明確化,正確な3次元インフォームド光フロー予測の確保,およびWav2Lip結果による唇同期の改善により,識別整合性を維持した。
(3)よりスムーズでリアルな点滅行動を伴う自然な眼球運動をモデル化するための洗練された点滅戦略。
関連論文リスト
- MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。
さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。
提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-29T12:08:02Z) - Scalable Benchmarking and Robust Learning for Noise-Free Ego-Motion and 3D Reconstruction from Noisy Video [30.89206445146674]
ノイズフリーデータへの依存という限界に対処することで、ロバストなエゴモーション推定とフォトリアリスティックな3D再構成を再定義することを目指している。
スケーラブルなデータ生成、包括的な堅牢性、モデルの強化という3つの課題に取り組んでいます。
Robust-Ego3Dという,ノイズによるパフォーマンス劣化の顕在化を目的としたベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-01-24T08:25:48Z) - GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer [26.567649613966974]
Graph Latent Transformerに基づく音声駆動型3次元顔アニメーションモデル
GLDiTalkerは、量子化された時間潜在空間内の信号を拡散することで、不一致を解消する。
Graph-Enhanced Space Quantized Learning Stageはリップ同期の精度を保証し、Space-Time Powered Latent Diffusion Stageは動きの多様性を高める。
論文 参考訳(メタデータ) (2024-08-03T17:18:26Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。