論文の概要: Human-Object Interaction from Human-Level Instructions
- arxiv url: http://arxiv.org/abs/2406.17840v1
- Date: Tue, 25 Jun 2024 17:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 15:37:10.283716
- Title: Human-Object Interaction from Human-Level Instructions
- Title(参考訳): ヒューマン・レベル・インストラクションからのヒューマン・オブジェクトのインタラクション
- Authors: Zhen Wu, Jiaman Li, C. Karen Liu,
- Abstract要約: 対象動作,全体動作,指動作を人体レベルで同時に合成できる最初の完全システムを提案する。
実験では,高レベルプランナが多目的物体の現実的相互作用を合成する上で,高レベルな目標レイアウトの生成に有効であることを実証した。
- 参考スコア(独自算出の注目度): 16.70362477046958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent agents need to autonomously navigate and interact within contextual environments to perform a wide range of daily tasks based on human-level instructions. These agents require a foundational understanding of the world, incorporating common sense and knowledge, to interpret such instructions. Moreover, they must possess precise low-level skills for movement and interaction to execute the detailed task plans derived from these instructions. In this work, we address the task of synthesizing continuous human-object interactions for manipulating large objects within contextual environments, guided by human-level instructions. Our goal is to generate synchronized object motion, full-body human motion, and detailed finger motion, all essential for realistic interactions. Our framework consists of a large language model (LLM) planning module and a low-level motion generator. We use LLMs to deduce spatial object relationships and devise a method for accurately determining their positions and orientations in target scene layouts. Additionally, the LLM planner outlines a detailed task plan specifying a sequence of sub-tasks. This task plan, along with the target object poses, serves as input for our low-level motion generator, which seamlessly alternates between navigation and interaction modules. We present the first complete system that can synthesize object motion, full-body motion, and finger motion simultaneously from human-level instructions. Our experiments demonstrate the effectiveness of our high-level planner in generating plausible target layouts and our low-level motion generator in synthesizing realistic interactions for diverse objects. Please refer to our project page for more results: https://hoifhli.github.io/.
- Abstract(参考訳): インテリジェントエージェントは、人間レベルの指示に基づいて、幅広い日々のタスクを実行するために、コンテキスト環境内で自律的にナビゲートし、対話する必要がある。
これらのエージェントは、そのような指示を解釈するために、常識と知識を取り入れた世界の基本的理解を必要とする。
さらに、これらの指示から派生した詳細なタスクプランを実行するためには、動きと相互作用の正確な低レベルなスキルを持つ必要がある。
本研究では,人間レベルの指示によって導かれるコンテキスト環境下での大規模物体の操作において,連続的な人間と物体の相互作用を合成する課題に対処する。
私たちのゴールは、現実的な相互作用に不可欠な、同期された物体の動き、全身の人間の動き、詳細な指の動きを生成することです。
本フレームワークは,大規模言語モデル(LLM)計画モジュールと低レベルモーションジェネレータから構成される。
LLMを用いて空間的オブジェクト関係を推定し、ターゲットシーンレイアウトにおける位置と方向を正確に決定する方法を考案する。
さらに、LLMプランナーは、サブタスクのシーケンスを指定する詳細なタスクプランを概説する。
このタスクプランとターゲットオブジェクトのポーズは、ナビゲーションとインタラクションモジュールをシームレスに切り替える低レベルのモーションジェネレータの入力として機能します。
対象動作,全体動作,指動作を人体レベルで同時に合成できる最初の完全システムを提案する。
実験では,高レベルプランナが多目的物体の現実的相互作用を合成する上で,高レベルな目標レイアウトの生成に有効であることを実証した。
より詳細な結果については、プロジェクトページを参照してください。
関連論文リスト
- HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。
強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。
シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-06-20T18:21:24Z) - InsActor: Instruction-driven Physics-based Characters [65.4702927454252]
本稿では,物理系文字の命令駆動型アニメーションを生成する,原理的生成フレームワークを提案する。
我々のフレームワークは、InsActorに高レベルな人間の指示とキャラクターの動きの間の複雑な関係をキャプチャする権限を与える。
InsActorは、命令駆動のモーション生成や命令駆動のウェイポイント誘導など、様々なタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-12-28T17:10:31Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - CG-HOI: Contact-Guided 3D Human-Object Interaction Generation [29.3564427724612]
テキストから動的3次元人-物体相互作用(HOI)を生成する最初の方法であるCG-HOIを提案する。
意味的に豊かな人間の動きは、しばしば孤立して起こるので、人間と物体の両方の動きを相互依存的にモデル化する。
我々は,接触に基づく人間と物体の相互作用が現実的かつ物理的に妥当なシーケンスを生成することを示す。
論文 参考訳(メタデータ) (2023-11-27T18:59:10Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。