論文の概要: EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2512.18814v1
- Date: Sun, 21 Dec 2025 17:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.51585
- Title: EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer
- Title(参考訳): EchoMotion:デュアルモーダル拡散変換器による統一ビデオとモーション生成
- Authors: Yuxiao Yang, Hualian Sheng, Sijia Cai, Jing Lin, Jiahao Wang, Bing Deng, Junzhe Lu, Haoqian Wang, Jieping Ye,
- Abstract要約: 本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
- 参考スコア(独自算出の注目度): 64.69014756863331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have advanced significantly, yet they still struggle to synthesize complex human movements due to the high degrees of freedom in human articulation. This limitation stems from the intrinsic constraints of pixel-only training objectives, which inherently bias models toward appearance fidelity at the expense of learning underlying kinematic principles. To address this, we introduce EchoMotion, a framework designed to model the joint distribution of appearance and human motion, thereby improving the quality of complex human action video generation. EchoMotion extends the DiT (Diffusion Transformer) framework with a dual-branch architecture that jointly processes tokens concatenated from different modalities. Furthermore, we propose MVS-RoPE (Motion-Video Syncronized RoPE), which offers unified 3D positional encoding for both video and motion tokens. By providing a synchronized coordinate system for the dual-modal latent sequence, MVS-RoPE establishes an inductive bias that fosters temporal alignment between the two modalities. We also propose a Motion-Video Two-Stage Training Strategy. This strategy enables the model to perform both the joint generation of complex human action videos and their corresponding motion sequences, as well as versatile cross-modal conditional generation tasks. To facilitate the training of a model with these capabilities, we construct HuMoVe, a large-scale dataset of approximately 80,000 high-quality, human-centric video-motion pairs. Our findings reveal that explicitly representing human motion is complementary to appearance, significantly boosting the coherence and plausibility of human-centric video generation.
- Abstract(参考訳): ビデオ生成モデルは大幅に進歩しているが、人間の構音の自由度が高いため、複雑な人間の動きを合成するのに依然として苦労している。
この制限は、根底にあるキネマティック原理の学習を犠牲にして外見の忠実性に対する偏見モデルであるピクセルのみの訓練目標の本質的な制約に起因している。
そこで本稿では,外観と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
EchoMotion は DiT (Diffusion Transformer) フレームワークを拡張し、異なるモダリティから構成されるトークンを共同処理するデュアルブランチアーキテクチャを提供する。
さらに,MVS-RoPE(Motion-Video Syncronized RoPE)を提案する。
MVS-RoPEは、二重モード潜在系列の同期座標系を提供することにより、2つのモード間の時間的アライメントを促進する誘導バイアスを確立する。
また,モーションビデオ2段階トレーニング戦略を提案する。
この戦略により、複雑なヒューマンアクションビデオとそれに対応する動作シーケンスのジョイント生成と、多目的なモード間条件生成タスクの両方を実行することができる。
これらの能力でモデルのトレーニングを容易にするために,約80,000の高品質な人間中心のビデオモーションペアからなる大規模データセットであるHuMoVeを構築した。
以上の結果から、人間の動きを明示的に表現することは外見と相補的であり、人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが明らかとなった。
関連論文リスト
- UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - Generating Human Motion Videos using a Cascaded Text-to-Video Framework [27.77921324288557]
CAMEOは、一般的な人間のモーションビデオ生成のためのカスケードフレームワークである。
Text-to-Motion(T2M)モデルと条件付きVDMをシームレスにブリッジする。
提案手法の有効性をMovieGenベンチマークとT2M-VDMの組み合わせに合わせて新たに導入したベンチマークで示す。
論文 参考訳(メタデータ) (2025-10-04T19:16:28Z) - MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling [107.8379802891245]
本稿では,人間の映像生成過程を2つの構成要素,すなわち構造生成と外観生成に分解するMOSAを提案する。
MoSAは、ほとんどの評価指標で既存のアプローチを大幅に上回っている。
また,既存の人的ビデオデータセットよりも複雑で多様な動きを特徴とする大規模な人的ビデオデータセットも提案する。
論文 参考訳(メタデータ) (2025-08-24T15:20:24Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。