論文の概要: MaMi-HOI: Harmonizing Global Kinematics and Local Geometry for Human-Object Interaction Generation
- arxiv url: http://arxiv.org/abs/2605.05756v1
- Date: Thu, 07 May 2026 06:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.575511
- Title: MaMi-HOI: Harmonizing Global Kinematics and Local Geometry for Human-Object Interaction Generation
- Title(参考訳): MaMi-HOI:人間と物体の相互作用生成のためのグローバルキネマティクスと局所幾何学の調和
- Authors: Hao Wang, Shiqi Wang, Qi Liu,
- Abstract要約: MaMi-HOIはtextbfMacro レベルの流動性をtextbf Micro レベルの空間精度で再現する。
実験により、MaMi-HOIは自然運動と正確な接触を同時に達成できることが確認された。
- 参考スコア(独自算出の注目度): 14.056276184323321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic 3D Human-Object Interactions (HOI) is a fundamental task for applications ranging from embodied AI to virtual content creation, which requires harmonizing high-level semantic intent with strict low-level physical constraints. Existing methods excel at semantic alignment, however, they struggle to maintain precise object contact. We reveal a key finding termed \textit{Geometric Forgetting}: as diffusion model depth increases, semantic feature tend to overshadow object geometry feature, causing the model to lose its perception to object geometry. To address this, we propose MaMi-HOI, a hierarchical framework reconciling \textbf{Ma}cro-level kinematic fluidity with \textbf{Mi}cro-level spatial precision. First, to counteract geometric forgetting, we introduce the Geometry-Aware Proximity Adapter (GAPA), which explicitly re-injects dense object details to perform residual snapping corrections for precise contact. Nevertheless, such aggressive local enforcement can disrupt global dynamics, leading to robotic stiffness. In response, we introduce the Kinematic Harmony Adapter (KHA), which proactively aligns whole-body posture with spatial objectives, ensuring the skeleton actively accommodates constraints without compromising naturalness. Extensive experiments validate that MaMi-HOI simultaneously achieves natural motion and precise contact. Crucially, it extends generation capabilities to long-term tasks with complex trajectories, effectively bridging the gap between global navigation and high-fidelity manipulation in 3D scenes. Code is available at https://github.com/DON738110198/MaMi-HOI.git
- Abstract(参考訳): 現実的な3Dヒューマンオブジェクトインタラクション(HOI)の生成は、組み込みAIから仮想コンテンツ生成まで、アプリケーションの基本的なタスクである。
既存の手法は、セマンティックアライメントにおいて優れているが、それらは正確なオブジェクト接触を維持するのに苦労している。
拡散モデル深度が増加するにつれて、意味的特徴はオブジェクトの幾何学的特徴を覆い隠す傾向にあり、モデルがオブジェクト幾何学に対する知覚を失う。
そこで本稿では,MaMi-HOIを提案する。MaMi-HOI,MaMI-HOI,MaMI-HOI,MaMI-HOI,Matextbf{Ma}cro-level physicality with \textbf{Mi}cro-level space precision。
まず,幾何的誤りに対処するために,厳密な物体の詳細を明示的に再注入し,正確な接触を補正するGeometry-Aware Proximity Adapter (GAPA)を導入する。
それでも、このような攻撃的な局所的な執行は、グローバルなダイナミクスを妨害し、ロボットの硬さを損なう可能性がある。
そこで本研究では,全身姿勢と空間的目的を積極的に整合させるKHA(Kinematic Harmony Adapter)を導入し,自然性を損なうことなく,骨格が積極的に制約に適応するようにした。
大規模な実験により、MaMi-HOIは自然運動と正確な接触を同時に達成できることが確認された。
重要なのは、3Dシーンにおけるグローバルナビゲーションと高忠実度操作のギャップを効果的に埋めることである。
コードはhttps://github.com/DON738110198/MaMi-HOI.gitで公開されている。
関連論文リスト
- Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes [47.88691731631585]
GMTは、現実的でゴール指向のオブジェクトトラジェクトリを生成するマルチモーダルトランスフォーマーフレームワークである。
人工的および実世界のベンチマークの実験では、GMTは最先端の人間の動きや人間と物体の相互作用のベースラインより優れていることが示されている。
論文 参考訳(メタデータ) (2026-03-18T17:54:35Z) - GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion [17.719701533574412]
GeoLocoは、凍結されたスケール対応ビジュアルファウンデーションモデル(VFM)の強力な幾何学的先行情報を活用することにより、モノクル画像を高次元の潜伏表現として概念化する
GeoLocoは、Unitree G1ヒューマノイドへの堅牢なゼロショット転送を実現し、挑戦的な地形の交渉に成功している。
論文 参考訳(メタデータ) (2026-03-08T13:18:27Z) - Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning [19.292101162897975]
本稿では,幾何的に一貫したオブジェクト図面を持つ実写HOIビデオを生成するByteLoomを紹介する。
まず、相対座標マップ(RCM)をオブジェクトの幾何整合性を維持する普遍表現として活用するRCM-cache機構を提案する。
次に、モデル能力を進歩的なスタイルで向上し、ハンドメッシュの需要を緩和するトレーニングカリキュラムを設計する。
論文 参考訳(メタデータ) (2025-12-28T09:38:36Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。