論文の概要: Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation
- arxiv url: http://arxiv.org/abs/2602.10659v1
- Date: Wed, 11 Feb 2026 09:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.612041
- Title: Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation
- Title(参考訳): テキスト駆動型3次元ヒューマンオブジェクトインタラクション生成のマルチモーダル前処理
- Authors: Yin Wang, Ziyao Zhang, Zhiying Leng, Haitian Liu, Frederick W. B. Li, Mu Li, Xiaohui Liang,
- Abstract要約: テキスト駆動型3次元人-物体相互作用(HOI)運動生成の課題に対処する。
既存の方法は、主に直接テキスト・ツー・HoIマッピングに依存している。
4つの中核的な洞察に基づく新しいフレームワークMP-HOIを提案する。
- 参考スコア(独自算出の注目度): 26.16137102387553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenging task of text-driven 3D human-object interaction (HOI) motion generation. Existing methods primarily rely on a direct text-to-HOI mapping, which suffers from three key limitations due to the significant cross-modality gap: (Q1) sub-optimal human motion, (Q2) unnatural object motion, and (Q3) weak interaction between humans and objects. To address these challenges, we propose MP-HOI, a novel framework grounded in four core insights: (1) Multimodal Data Priors: We leverage multimodal data (text, image, pose/object) from large multimodal models as priors to guide HOI generation, which tackles Q1 and Q2 in data modeling. (2) Enhanced Object Representation: We improve existing object representations by incorporating geometric keypoints, contact features, and dynamic properties, enabling expressive object representations, which tackles Q2 in data representation. (3) Multimodal-Aware Mixture-of-Experts (MoE) Model: We propose a modality-aware MoE model for effective multimodal feature fusion paradigm, which tackles Q1 and Q2 in feature fusion. (4) Cascaded Diffusion with Interaction Supervision: We design a cascaded diffusion framework that progressively refines human-object interaction features under dedicated supervision, which tackles Q3 in interaction refinement. Comprehensive experiments demonstrate that MP-HOI outperforms existing approaches in generating high-fidelity and fine-grained HOI motions.
- Abstract(参考訳): テキスト駆動型3次元人-物体相互作用(HOI)運動生成の課題に対処する。
既存の手法は主に、(Q1) 準最適人の動き、(Q2) 不自然な物体の動き、(Q3) 人間と物体の間の弱い相互作用の3つの重要な限界に悩まされている、直接テキストからHOIマッピングに依存している。
1) マルチモーダルデータ優先: 大規模マルチモーダルモデルからのマルチモーダルデータ(テキスト,画像,ポーズ/オブジェクト)を先行として活用し,データモデリングにおけるQ1とQ2に対処する,新たなフレームワークMP-HOIを提案する。
2) 拡張オブジェクト表現: 幾何学的キーポイント、接触特徴、動的プロパティを組み込むことで、既存のオブジェクト表現を改善し、データ表現におけるQ2に取り組む表現オブジェクト表現を可能にします。
(3)Multimodal-Aware Mixture-of-Experts (MoE) Model: 機能融合におけるQ1とQ2に取り組む,効果的なマルチモーダル特徴融合パラダイムのためのモダリティ対応MoEモデルを提案する。
(4) インタラクション・スーパービジョンを用いたカスケード拡散(Cascaded Diffusion with Interaction Supervision): インタラクション・リファインメントのQ3に取り組み、人間と物体のインタラクション機能を段階的に洗練するカスケード拡散フレームワークを設計する。
包括的実験により、MP-HOIは、高忠実かつきめ細かいHOI運動を生成する既存のアプローチよりも優れていることが示された。
関連論文リスト
- UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文 参考訳(メタデータ) (2025-05-22T12:37:47Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - Stochastic Multi-Person 3D Motion Forecasting [21.915057426589744]
我々は、人間の動き予測に先立つ作業において、無視された現実世界の複雑さに対処する。
私たちのフレームワークは一般的なもので、異なる生成モデルでインスタンス化します。
このアプローチは多種多人数の予測を多種多様な精度で生成し,技術水準を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-08T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。