Fugu-MT 論文翻訳(概要): HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation

論文の概要: HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation

arxiv url: http://arxiv.org/abs/2506.08797v1
Date: Tue, 10 Jun 2025 13:45:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:42.561753
Title: HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation
Title（参考訳）: HunyuanVideo-HOMA:マルチモーダル駆動型アニメーションにおけるジェネリックヒューマンオブジェクトインタラクション
Authors: Ziyao Huang, Zixiang Zhou, Juan Cao, Yifeng Ma, Yi Chen, Zejing Rao, Zhiyong Xu, Hongmei Wang, Qin Lin, Yuan Zhou, Qinglin Lu, Fan Tang,
Abstract要約: HunyuanVideo-HOMAは、弱い条件付きマルチモーダル駆動のフレームワークである。多モード拡散変圧器の二重入力空間に外観と運動信号を符号化する。解剖学的に一貫した物理的に安定な相互作用を合成する。
参考スコア（独自算出の注目度）: 26.23483219159567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To address key limitations in human-object interaction (HOI) video generation -- specifically the reliance on curated motion data, limited generalization to novel objects/scenarios, and restricted accessibility -- we introduce HunyuanVideo-HOMA, a weakly conditioned multimodal-driven framework. HunyuanVideo-HOMA enhances controllability and reduces dependency on precise inputs through sparse, decoupled motion guidance. It encodes appearance and motion signals into the dual input space of a multimodal diffusion transformer (MMDiT), fusing them within a shared context space to synthesize temporally consistent and physically plausible interactions. To optimize training, we integrate a parameter-space HOI adapter initialized from pretrained MMDiT weights, preserving prior knowledge while enabling efficient adaptation, and a facial cross-attention adapter for anatomically accurate audio-driven lip synchronization. Extensive experiments confirm state-of-the-art performance in interaction naturalness and generalization under weak supervision. Finally, HunyuanVideo-HOMA demonstrates versatility in text-conditioned generation and interactive object manipulation, supported by a user-friendly demo interface. The project page is at https://anonymous.4open.science/w/homa-page-0FBE/.
Abstract（参考訳）: 人-物相互作用(HOI)ビデオ生成における鍵となる制限(特に、キュレートされたモーションデータへの依存、新しいオブジェクト/シナリオへの一般化の制限、アクセシビリティの制限)に対処するため、弱条件のマルチモーダル駆動フレームワークであるHunyuanVideo-HOMAを紹介した。 HunyuanVideo-HOMAは、制御性を高め、スパースで分離されたモーションガイダンスを通じて正確な入力への依存を減らす。マルチモーダル拡散変換器(MMDiT)のデュアル入力空間に外観と動作信号をエンコードし、それらを共有コンテキスト空間内で融合させ、時間的に一貫した物理的に妥当な相互作用を合成する。トレーニングを最適化するために,事前学習したMMDiT重みから初期化したパラメータ空間HOIアダプタと,解剖学的に正確な音声駆動型唇同期のための顔認識アダプタを統合した。広範囲な実験は、弱い監督下での相互作用自然性と一般化における最先端の性能を確認している。最後に、HunyuanVideo-HOMAは、ユーザフレンドリーなデモインタフェースでサポートされているテキストコンディション生成とインタラクティブなオブジェクト操作の汎用性を示す。プロジェクトページはhttps://anonymous.4open.science/w/homa-page-0FBE/にある。

関連論文リスト

MOSPA: Human Motion Generation Driven by Spatial Audio [56.735282455483954]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。 MOSPAと呼ばれるSPatial Audioによって駆動される人間の運動生成のための、シンプルで効果的な拡散に基づく生成フレームワークを開発する。トレーニングが完了すると、MOSPAは様々な空間的オーディオ入力に基づいて、多様なリアルな人間の動作を生成することができる。
論文参考訳（メタデータ） (2025-07-16T06:33:11Z)
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions [70.63690961790573]
リッチなマルチモーダル条件を持つエンドツーエンドの人間アニメーションは,近年顕著な進歩を遂げている。既存のほとんどの手法は、単一の主題をアニメーションし、グローバルな方法で条件を注入するしかなかった。本稿では,各アイデンティティの時間的フットプリントに対する条件の強い領域特異的な結合を強制する,新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-06-11T17:57:09Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
HoloGest: Decoupled Diffusion and Motion Priors for Generating Holisticly Expressive Co-speech Gestures [8.50717565369252]
HoleGestは、高品質で表現力のある共同音声ジェスチャーの自動生成のための、新しいニューラルネットワークフレームワークである。本システムでは,音声依存度が低く,モーション依存度が高く,より安定した大域的動作と詳細な指の動きが可能である。我々のモデルは、没入感のあるユーザー体験を提供するために、真実に近い現実主義のレベルを達成する。
論文参考訳（メタデータ） (2025-03-17T14:42:31Z)
Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。 Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文参考訳（メタデータ） (2025-02-20T18:17:11Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文参考訳（メタデータ） (2024-04-02T11:40:34Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文参考訳（メタデータ） (2022-12-08T18:59:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。