論文の概要: HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation
- arxiv url: http://arxiv.org/abs/2506.08797v1
- Date: Tue, 10 Jun 2025 13:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.561753
- Title: HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation
- Title(参考訳): HunyuanVideo-HOMA:マルチモーダル駆動型アニメーションにおけるジェネリックヒューマンオブジェクトインタラクション
- Authors: Ziyao Huang, Zixiang Zhou, Juan Cao, Yifeng Ma, Yi Chen, Zejing Rao, Zhiyong Xu, Hongmei Wang, Qin Lin, Yuan Zhou, Qinglin Lu, Fan Tang,
- Abstract要約: HunyuanVideo-HOMAは、弱い条件付きマルチモーダル駆動のフレームワークである。
多モード拡散変圧器の二重入力空間に外観と運動信号を符号化する。
解剖学的に一貫した物理的に安定な相互作用を合成する。
- 参考スコア(独自算出の注目度): 26.23483219159567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address key limitations in human-object interaction (HOI) video generation -- specifically the reliance on curated motion data, limited generalization to novel objects/scenarios, and restricted accessibility -- we introduce HunyuanVideo-HOMA, a weakly conditioned multimodal-driven framework. HunyuanVideo-HOMA enhances controllability and reduces dependency on precise inputs through sparse, decoupled motion guidance. It encodes appearance and motion signals into the dual input space of a multimodal diffusion transformer (MMDiT), fusing them within a shared context space to synthesize temporally consistent and physically plausible interactions. To optimize training, we integrate a parameter-space HOI adapter initialized from pretrained MMDiT weights, preserving prior knowledge while enabling efficient adaptation, and a facial cross-attention adapter for anatomically accurate audio-driven lip synchronization. Extensive experiments confirm state-of-the-art performance in interaction naturalness and generalization under weak supervision. Finally, HunyuanVideo-HOMA demonstrates versatility in text-conditioned generation and interactive object manipulation, supported by a user-friendly demo interface. The project page is at https://anonymous.4open.science/w/homa-page-0FBE/.
- Abstract(参考訳): 人-物相互作用(HOI)ビデオ生成における鍵となる制限(特に、キュレートされたモーションデータへの依存、新しいオブジェクト/シナリオへの一般化の制限、アクセシビリティの制限)に対処するため、弱条件のマルチモーダル駆動フレームワークであるHunyuanVideo-HOMAを紹介した。
HunyuanVideo-HOMAは、制御性を高め、スパースで分離されたモーションガイダンスを通じて正確な入力への依存を減らす。
マルチモーダル拡散変換器(MMDiT)のデュアル入力空間に外観と動作信号をエンコードし、それらを共有コンテキスト空間内で融合させ、時間的に一貫した物理的に妥当な相互作用を合成する。
トレーニングを最適化するために,事前学習したMMDiT重みから初期化したパラメータ空間HOIアダプタと,解剖学的に正確な音声駆動型唇同期のための顔認識アダプタを統合した。
広範囲な実験は、弱い監督下での相互作用自然性と一般化における最先端の性能を確認している。
最後に、HunyuanVideo-HOMAは、ユーザフレンドリーなデモインタフェースでサポートされているテキストコンディション生成とインタラクティブなオブジェクト操作の汎用性を示す。
プロジェクトページはhttps://anonymous.4open.science/w/homa-page-0FBE/にある。
関連論文リスト
- Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。