論文の概要: FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
- arxiv url: http://arxiv.org/abs/2504.04842v1
- Date: Mon, 07 Apr 2025 08:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:07.196208
- Title: FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
- Title(参考訳): FantasyTalking:コヒーレント・モーション・シンセサイザーによるリアルなトーキング・ポートレート生成
- Authors: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu,
- Abstract要約: 本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。
最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。
第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
- 参考スコア(独自算出の注目度): 12.987186425491242
- License:
- Abstract: Creating a realistic animatable avatar from a single static portrait remains challenging. Existing approaches often struggle to capture subtle facial expressions, the associated global body movements, and the dynamic background. To address these limitations, we propose a novel framework that leverages a pretrained video diffusion transformer model to generate high-fidelity, coherent talking portraits with controllable motion dynamics. At the core of our work is a dual-stage audio-visual alignment strategy. In the first stage, we employ a clip-level training scheme to establish coherent global motion by aligning audio-driven dynamics across the entire scene, including the reference portrait, contextual objects, and background. In the second stage, we refine lip movements at the frame level using a lip-tracing mask, ensuring precise synchronization with audio signals. To preserve identity without compromising motion flexibility, we replace the commonly used reference network with a facial-focused cross-attention module that effectively maintains facial consistency throughout the video. Furthermore, we integrate a motion intensity modulation module that explicitly controls expression and body motion intensity, enabling controllable manipulation of portrait movements beyond mere lip motion. Extensive experimental results show that our proposed approach achieves higher quality with better realism, coherence, motion intensity, and identity preservation. Ours project page: https://fantasy-amap.github.io/fantasy-talking/.
- Abstract(参考訳): 1枚の静止画からリアルなアニマタブルなアバターを作るのはまだ難しいです。
既存のアプローチは、微妙な表情、関連するグローバルな身体の動き、ダイナミックな背景を捉えるのに苦労することが多い。
これらの制約に対処するために,予め訓練された動画拡散トランスフォーマモデルを用いて,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミクスを生成する新しいフレームワークを提案する。
私たちの研究の核心は、デュアルステージのオーディオ-視覚アライメント戦略です。
第1段階では、シーン全体にわたって、参照ポートレート、コンテキストオブジェクト、背景を含む音声駆動のダイナミクスを整列させることにより、コヒーレントなグローバルな動きを確立するために、クリップレベルのトレーニングスキームを採用する。
第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
動きの柔軟性を損なうことなくアイデンティティを維持するために、一般的に使用される参照ネットワークを、映像全体の顔の一貫性を効果的に維持する顔中心のクロスアテンションモジュールに置き換える。
さらに,表情と身体の動きの強度を明示的に制御し,単なる唇の動きを超えた肖像画の動きを制御可能な操作を可能にする運動強度変調モジュールを統合する。
実験結果から,提案手法はより優れたリアリズム,コヒーレンス,運動強度,アイデンティティの保存により,より高い品質を達成できることが示唆された。
私たちのプロジェクトページ:https://fantasy-amap.github.io/fantasy-talking/。
関連論文リスト
- SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。
我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。
アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文 参考訳(メタデータ) (2024-07-26T08:30:06Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。
実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文 参考訳(メタデータ) (2024-03-23T20:30:28Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。