論文の概要: X-UniMotion: Animating Human Images with Expressive, Unified and Identity-Agnostic Motion Latents
- arxiv url: http://arxiv.org/abs/2508.09383v1
- Date: Tue, 12 Aug 2025 22:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.708279
- Title: X-UniMotion: Animating Human Images with Expressive, Unified and Identity-Agnostic Motion Latents
- Title(参考訳): X-UniMotion: 表現的・統一的・同一性非依存的な動きを伴う人物像のアニメーション
- Authors: Guoxian Song, Hongyi Xu, Xiaochen Zhao, You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Linjie Luo,
- Abstract要約: X-UniMotionは全身の人間の動きを統一的かつ表現的に表現できる潜在性表現である。
提案手法は、1つの画像から4つの非絡み合った潜在トークンのコンパクトな集合への多粒体運動を直接符号化する。
これらの動き潜伏剤は、非常に表現力が高く、同一性に依存しないため、高忠実で詳細な異性間移動を可能にする。
- 参考スコア(独自算出の注目度): 17.536895865783507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present X-UniMotion, a unified and expressive implicit latent representation for whole-body human motion, encompassing facial expressions, body poses, and hand gestures. Unlike prior motion transfer methods that rely on explicit skeletal poses and heuristic cross-identity adjustments, our approach encodes multi-granular motion directly from a single image into a compact set of four disentangled latent tokens -- one for facial expression, one for body pose, and one for each hand. These motion latents are both highly expressive and identity-agnostic, enabling high-fidelity, detailed cross-identity motion transfer across subjects with diverse identities, poses, and spatial configurations. To achieve this, we introduce a self-supervised, end-to-end framework that jointly learns the motion encoder and latent representation alongside a DiT-based video generative model, trained on large-scale, diverse human motion datasets. Motion-identity disentanglement is enforced via 2D spatial and color augmentations, as well as synthetic 3D renderings of cross-identity subject pairs under shared poses. Furthermore, we guide motion token learning with auxiliary decoders that promote fine-grained, semantically aligned, and depth-aware motion embeddings. Extensive experiments show that X-UniMotion outperforms state-of-the-art methods, producing highly expressive animations with superior motion fidelity and identity preservation.
- Abstract(参考訳): X-UniMotionは,顔の表情,ポーズ,手のジェスチャーを包含した,全身の人間の動作に対する統一的で表現力に富んだ潜在性表現である。
明示的な骨格のポーズとヒューリスティックな相互同一性調整に依存する従来の動作伝達法とは異なり、我々のアプローチは、1つの画像から4つの非絡み合ったトークンのコンパクトなセット(顔の表情、1つは身体のポーズ、1つは手それぞれ)に、多彩な動きを直接符号化する。
これらの動きは、非常に表現力が高く、同一性に依存しないため、多彩なアイデンティティ、ポーズ、空間的構成を持つ被験者間での、高忠実で詳細な異性間移動を可能にする。
これを実現するために、大規模で多様な人間の動きデータセットに基づいて訓練されたDiTベースのビデオ生成モデルとともに、モーションエンコーダと潜在表現を共同で学習する、自己教師型エンドツーエンドフレームワークを導入する。
モーション・アイデンティティ・ディアングルメントは2次元空間および色増色、および共有ポーズ下でのクロス・アイデンティティ・サブジェクトペアの合成3次元レンダリングによって実施される。
さらに,細粒度,セマンティックアライメント,深度認識型モーション埋め込みを促進する補助デコーダを用いて,モーショントークン学習を指導する。
大規模な実験により、X-UniMotionは最先端の手法よりも優れ、優れた動きの忠実さとアイデンティティ保存を備えた高表現力のアニメーションを生成することが示されている。
関連論文リスト
- Motion is the Choreographer: Learning Latent Pose Dynamics for Seamless Sign Language Generation [24.324964949728045]
我々は手話ビデオ生成のための新しいパラダイムを提案し、手話のセマンティクスを手話のアイデンティティから切り離す。
まず,シグナ非依存のマルチモーダルモーションレキシコンを構築し,各光沢を同一性に依存しないポーズ,ジェスチャー,および3Dメッシュシーケンスとして格納する。
このコンパクトな表現は、検索した光沢配列を時間的に一貫性のある運動軌跡に変換する離散から連続的な運動合成段階という、2つ目の重要なイノベーションを可能にします。
論文 参考訳(メタデータ) (2025-08-06T03:23:10Z) - X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文 参考訳(メタデータ) (2025-07-30T22:46:52Z) - DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance [9.898947423344884]
本稿では,DreamActor-M1 を用いた拡散トランスフォーマ (DiT) ベースのフレームワークを提案する。
動作誘導のために、暗黙の表情、3次元頭部球体、および3次元体骨格を統合したハイブリッド制御信号は、表情と身体運動の堅牢な制御を実現する。
実験により,本手法は,肖像画,上半身,全体生成の表現的結果を提示し,最先端の成果よりも優れることが示された。
論文 参考訳(メタデータ) (2025-04-02T13:30:32Z) - BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。