論文の概要: Human-Object Interaction with Vision-Language Model Guided Relative Movement Dynamics
- arxiv url: http://arxiv.org/abs/2503.18349v1
- Date: Mon, 24 Mar 2025 05:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:14.399598
- Title: Human-Object Interaction with Vision-Language Model Guided Relative Movement Dynamics
- Title(参考訳): 相対運動ダイナミクスを導く視覚言語モデルとの人間と物体の相互作用
- Authors: Zekai Deng, Ye Shi, Kaiyang Ji, Lan Xu, Shaoli Huang, Jingya Wang,
- Abstract要約: 本稿では,統合されたオブジェクトインタラクションフレームワークを提案する。
静的シーンと動的オブジェクトとのインタラクションを言語コマンドを使って統一的に制御する。
我々のフレームワークは動的、調音的、静的なオブジェクト間の長い水平相互作用をサポートしている。
- 参考スコア(独自算出の注目度): 30.43930233035367
- License:
- Abstract: Human-Object Interaction (HOI) is vital for advancing simulation, animation, and robotics, enabling the generation of long-term, physically plausible motions in 3D environments. However, existing methods often fall short of achieving physics realism and supporting diverse types of interactions. To address these challenges, this paper introduces a unified Human-Object Interaction framework that provides unified control over interactions with static scenes and dynamic objects using language commands. The interactions between human and object parts can always be described as the continuous stable Relative Movement Dynamics (RMD) between human and object parts. By leveraging the world knowledge and scene perception capabilities of Vision-Language Models (VLMs), we translate language commands into RMD diagrams, which are used to guide goal-conditioned reinforcement learning for sequential interaction with objects. Our framework supports long-horizon interactions among dynamic, articulated, and static objects. To support the training and evaluation of our framework, we present a new dataset named Interplay, which includes multi-round task plans generated by VLMs, covering both static and dynamic HOI tasks. Extensive experiments demonstrate that our proposed framework can effectively handle a wide range of HOI tasks, showcasing its ability to maintain long-term, multi-round transitions. For more details, please refer to our project webpage: https://rmd-hoi.github.io/.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(HOI)は、シミュレーション、アニメーション、ロボット工学の進歩に不可欠であり、3D環境における長期的、物理的にもっともらしい動きの生成を可能にする。
しかし、既存の手法は物理リアリズムを達成でき、様々な種類の相互作用をサポートできないことが多い。
これらの課題に対処するために,静的シーンと動的オブジェクトとのインタラクションを言語コマンドを用いて統一的に制御する,統合されたヒューマンオブジェクトインタラクションフレームワークを提案する。
人間と物体の間の相互作用は、常に人間と物体の間の連続的な安定相対運動ダイナミクス(RMD)として記述できる。
視覚言語モデル(VLM)の世界の知識とシーン認識機能を活用することで,言語コマンドをMDダイアグラムに変換する。
我々のフレームワークは動的、調音的、静的なオブジェクト間の長い水平相互作用をサポートしている。
フレームワークのトレーニングと評価を支援するために,VLMが生成するマルチラウンドタスク計画を含むInterplayという新しいデータセットを提案する。
大規模な実験により,提案するフレームワークはHOIタスクを効果的に扱えることを示した。
詳細はプロジェクトのWebページを参照してください。
関連論文リスト
- InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブなダイナミクスのビデオを生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルネットワークと暗黙の物理シミュレータの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Human-Object Interaction from Human-Level Instructions [17.10279738828331]
本研究では、コンテキスト環境におけるオブジェクト操作のための人間とオブジェクトの相互作用を合成する最初の完全システムを提案する。
我々は大規模言語モデル(LLM)を利用して入力命令を詳細な実行計画に解釈する。
従来の作業とは異なり,本システムは全身運動とシームレスに協調して,詳細な指と物体の相互作用を生成できる。
論文 参考訳(メタデータ) (2024-06-25T17:46:28Z) - InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction [27.10256777126629]
本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。
人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。
これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-03-28T17:59:30Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [61.87652569413429]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - D-Grasp: Physically Plausible Dynamic Grasp Synthesis for Hand-Object
Interactions [47.55376158184854]
動的合成把握タスクを導入する。
既知の6Dポーズと把握基準を持つオブジェクトが与えられた場合、私たちのゴールはオブジェクトをターゲット6Dポーズに移動させる動作を生成することです。
階層的なアプローチは、タスクを低レベルの把握と高レベルのモーション合成に分解する。
論文 参考訳(メタデータ) (2021-12-01T17:04:39Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。