論文の概要: Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model
- arxiv url: http://arxiv.org/abs/2502.09533v1
- Date: Thu, 13 Feb 2025 17:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:13.542241
- Title: Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model
- Title(参考訳): 運動パラメータ条件付き拡散モデルによる長時間対面生成
- Authors: Fei Shen, Cong Wang, Junyao Gao, Qin Guo, Jisheng Dang, Jinhui Tang, Tat-Seng Chua,
- Abstract要約: textbfMotion-priors textbfConditional textbfDiffusion textbfModel(textbfMCDM)を導入する。
textbfTalkingFace-Wildデータセットもリリースしています。
- 参考スコア(独自算出の注目度): 64.11605839142348
- License:
- Abstract: Recent advances in conditional diffusion models have shown promise for generating realistic TalkingFace videos, yet challenges persist in achieving consistent head movement, synchronized facial expressions, and accurate lip synchronization over extended generations. To address these, we introduce the \textbf{M}otion-priors \textbf{C}onditional \textbf{D}iffusion \textbf{M}odel (\textbf{MCDM}), which utilizes both archived and current clip motion priors to enhance motion prediction and ensure temporal consistency. The model consists of three key elements: (1) an archived-clip motion-prior that incorporates historical frames and a reference frame to preserve identity and context; (2) a present-clip motion-prior diffusion model that captures multimodal causality for accurate predictions of head movements, lip sync, and expressions; and (3) a memory-efficient temporal attention mechanism that mitigates error accumulation by dynamically storing and updating motion features. We also release the \textbf{TalkingFace-Wild} dataset, a multilingual collection of over 200 hours of footage across 10 languages. Experimental results demonstrate the effectiveness of MCDM in maintaining identity and motion continuity for long-term TalkingFace generation. Code, models, and datasets will be publicly available.
- Abstract(参考訳): 条件拡散モデルの最近の進歩は、現実的なTalkingFaceビデオを生成することを約束しているが、一貫した頭の動き、表情の同期、そして長い世代にわたる正確な唇の同期の実現には課題が続いている。
これらの問題に対処するために、アーカイブされたクリップと現在のクリップの両方の動作を前もって利用し、動き予測を強化し、時間的整合性を確保するための、 \textbf{M}odel (\textbf{M}odel) という方法を導入する。
本モデルは,(1)履歴フレームと参照フレームを組み込んでアイデンティティとコンテキストを保存するアーカイブ・クリップ・モーション・プライヤ,(2)頭部の動き,唇の同期,表情の正確な予測のためのマルチモーダル因果関係を捉えた現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・過去・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現在・現代・現代・現代・現代・現代・現代・現代・現代・現代・現代・環境の3つの要素から構成されている。
また、私たちは10言語にわたる200時間以上の映像を多言語で収集する、 \textbf{TalkingFace-Wild}データセットもリリースしました。
MCDMが長期間のTalkingFace生成におけるアイデンティティと動作継続性を維持する効果を示す実験結果が得られた。
コード、モデル、データセットが公開される。
関連論文リスト
- Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts [41.08576055846111]
Stereo-Talkerは、新しいワンショットオーディオ駆動型ヒューマンビデオ合成システムである。
正確な唇の同期、表現力のある身体ジェスチャー、時間的に一貫したフォトリアリスティックな品質、継続的な視点制御を備えた3Dビデオを生成する。
論文 参考訳(メタデータ) (2024-10-31T11:32:33Z) - Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。
現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。
拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文 参考訳(メタデータ) (2024-09-29T12:26:24Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models [12.907590808274358]
本稿では,ストーリ生成のセマンティック一貫性と時間的一貫性を高めるために,リッチコンテキスト拡散モデル(RCDM)を提案する。
RCDMは、自動回帰モデルと比較して、1つの前方推論で一貫したストーリーを生成することができる。
論文 参考訳(メタデータ) (2024-07-02T17:58:07Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。