論文の概要: OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2505.18947v1
- Date: Sun, 25 May 2025 02:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.772072
- Title: OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model
- Title(参考訳): OpenHOI:マルチモーダル大言語モデルを用いたオープンワールドハンドオブジェクトインタラクション合成
- Authors: Zhenhao Zhang, Ye Shi, Lingxiao Yang, Suting Ni, Qi Ye, Jingya Wang,
- Abstract要約: オープンワールドHOI合成のための最初のフレームワークであるOpenHOIを紹介する。
本手法では,3次元マルチモーダル大規模言語モデル(MLLM)を統合して,協調的アベイランスグラウンドと意味的タスクの分解を行う。
物理的にもっともらしい相互作用を合成するために, トレーニング不要な物理リファインメント段階と組み合わせたアベイランス駆動拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 22.545267010077822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and synthesizing realistic 3D hand-object interactions (HOI) is critical for applications ranging from immersive AR/VR to dexterous robotics. Existing methods struggle with generalization, performing well on closed-set objects and predefined tasks but failing to handle unseen objects or open-vocabulary instructions. We introduce OpenHOI, the first framework for open-world HOI synthesis, capable of generating long-horizon manipulation sequences for novel objects guided by free-form language commands. Our approach integrates a 3D Multimodal Large Language Model (MLLM) fine-tuned for joint affordance grounding and semantic task decomposition, enabling precise localization of interaction regions (e.g., handles, buttons) and breakdown of complex instructions (e.g., "Find a water bottle and take a sip") into executable sub-tasks. To synthesize physically plausible interactions, we propose an affordance-driven diffusion model paired with a training-free physics refinement stage that minimizes penetration and optimizes affordance alignment. Evaluations across diverse scenarios demonstrate OpenHOI's superiority over state-of-the-art methods in generalizing to novel object categories, multi-stage tasks, and complex language instructions. Our project page at \href{https://openhoi.github.io}
- Abstract(参考訳): 現実的な3Dハンドオブジェクトインタラクション(HOI)の理解と合成は、没入型AR/VRからデクスタラスロボティクスまで幅広い応用に不可欠である。
既存のメソッドは一般化に苦労し、クローズドセットオブジェクトや事前定義されたタスクでうまく機能するが、目に見えないオブジェクトやオープン語彙命令を処理できない。
我々は,オープンワールドHOI合成のための最初のフレームワークであるOpenHOIを紹介した。
提案手法では,3次元マルチモーダル大規模言語モデル(MLLM)を用いて,作業領域(ハンドル,ボタンなど)の正確な局所化と複雑な命令(例えば「水筒を固定し,シップを取る」など)を実行可能なサブタスクに統合する。
本研究では, 物理的にもっともらしい相互作用を合成するために, 浸透を最小限に抑え, 空調アライメントを最適化する, トレーニング不要な物理リファインメント段階と組み合わせた, 空調駆動拡散モデルを提案する。
様々なシナリオに対する評価は、新しいオブジェクトカテゴリ、マルチステージタスク、複雑な言語命令への一般化において、OpenHOIが最先端のメソッドよりも優れていることを示している。
プロジェクトページは \href{https://openhoi.github.io} です。
関連論文リスト
- GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Affordance Diffusion: Synthesizing Hand-Object Interactions [81.98499943996394]
対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚することを目的としている。
そこで本研究では,触覚に依存しない手オブジェクトのインタラクションレイアウトをサンプリングするLayoutNetと,物体をつかむ手のイメージを合成するContentNetの2段階生成手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。