論文の概要: X-Dyna: Expressive Dynamic Human Image Animation
- arxiv url: http://arxiv.org/abs/2501.10021v2
- Date: Mon, 20 Jan 2025 23:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:53.941677
- Title: X-Dyna: Expressive Dynamic Human Image Animation
- Title(参考訳): X-Dyna: 表現力のあるダイナミックヒューマンイメージアニメーション
- Authors: Di Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani,
- Abstract要約: X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
- 参考スコア(独自算出の注目度): 49.896933584815926
- License:
- Abstract: We introduce X-Dyna, a novel zero-shot, diffusion-based pipeline for animating a single human image using facial expressions and body movements derived from a driving video, that generates realistic, context-aware dynamics for both the subject and the surrounding environment. Building on prior approaches centered on human pose control, X-Dyna addresses key shortcomings causing the loss of dynamic details, enhancing the lifelike qualities of human video animations. At the core of our approach is the Dynamics-Adapter, a lightweight module that effectively integrates reference appearance context into the spatial attentions of the diffusion backbone while preserving the capacity of motion modules in synthesizing fluid and intricate dynamic details. Beyond body pose control, we connect a local control module with our model to capture identity-disentangled facial expressions, facilitating accurate expression transfer for enhanced realism in animated scenes. Together, these components form a unified framework capable of learning physical human motion and natural scene dynamics from a diverse blend of human and scene videos. Comprehensive qualitative and quantitative evaluations demonstrate that X-Dyna outperforms state-of-the-art methods, creating highly lifelike and expressive animations. The code is available at https://github.com/bytedance/X-Dyna.
- Abstract(参考訳): X-Dynaは、被験者と周囲環境の両方に対して現実的なコンテキスト認識のダイナミクスを生成する、運転映像から得られる表情と身体の動きを用いて、単一の人間のイメージをアニメーションする新しいゼロショット拡散ベースパイプラインである。
人間のポーズ制御を中心とした以前のアプローチに基づいて、X-Dynaは、人間のビデオアニメーションのライフライクな品質を向上する動的な詳細の喪失を引き起こす重要な欠点に対処する。
我々のアプローチの核となるのはDynamics-Adapterであり、これは拡散バックボーンの空間的注意に参照の出現コンテキストを効果的に統合し、流体合成における運動モジュールのキャパシティを保ち、複雑なダイナミックディテールを維持できる軽量モジュールである。
身体ポーズ制御以外にも、局所的な制御モジュールをモデルに接続し、身近な表情をキャプチャし、アニメーションシーンにおけるリアル性を高めるための正確な表現伝達を容易にする。
これらのコンポーネントは統合されたフレームワークを形成し、人間とシーンのビデオの多様なブレンドから、物理的な人間の動きと自然なシーンのダイナミクスを学習する。
総合的な質的、定量的な評価は、X-Dynaが最先端の手法より優れ、非常に生き生きとした表現力のあるアニメーションを生み出していることを示している。
コードはhttps://github.com/bytedance/X-Dyna.comで入手できる。
関連論文リスト
- EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Reanimating Images using Neural Representations of Dynamic Stimuli [36.04425924379253]
動画拡散モデルは、静止画像表現とモーション生成を分離するために使用される。
ブレインデコードされたモーション信号は、ビデオの初期フレームのみに基づいて、リアルなビデオ再アニメーションを可能にする。
この枠組みは、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかの理解を深める。
論文 参考訳(メタデータ) (2024-06-04T17:59:49Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Real-time Deep Dynamic Characters [95.5592405831368]
本研究では,高度にリアルな形状,動き,ダイナミックな外観を示す3次元人物モデルを提案する。
我々は,新しいグラフ畳み込みネットワークアーキテクチャを用いて,身体と衣服の運動依存的変形学習を実現する。
本モデルでは, 運動依存的表面変形, 物理的に妥当な動的衣服変形, および映像現実的表面テクスチャを, 従来よりも細部まで高レベルに生成することを示す。
論文 参考訳(メタデータ) (2021-05-04T23:28:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。