Fugu-MT 論文翻訳(概要): Human-Object Interaction from Human-Level Instructions

論文の概要: Human-Object Interaction from Human-Level Instructions

arxiv url: http://arxiv.org/abs/2406.17840v2
Date: Wed, 11 Dec 2024 04:37:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.349394
Title: Human-Object Interaction from Human-Level Instructions
Title（参考訳）: ヒューマン・レベル・インストラクションからのヒューマン・オブジェクトのインタラクション
Authors: Zhen Wu, Jiaman Li, Pei Xu, C. Karen Liu,
Abstract要約: 本研究では、コンテキスト環境におけるオブジェクト操作のための人間とオブジェクトの相互作用を合成する最初の完全システムを提案する。我々は大規模言語モデル(LLM)を利用して入力命令を詳細な実行計画に解釈する。従来の作業とは異なり,本システムは全身運動とシームレスに協調して,詳細な指と物体の相互作用を生成できる。
参考スコア（独自算出の注目度）: 17.10279738828331
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intelligent agents must autonomously interact with the environments to perform daily tasks based on human-level instructions. They need a foundational understanding of the world to accurately interpret these instructions, along with precise low-level movement and interaction skills to execute the derived actions. In this work, we propose the first complete system for synthesizing physically plausible, long-horizon human-object interactions for object manipulation in contextual environments, driven by human-level instructions. We leverage large language models (LLMs) to interpret the input instructions into detailed execution plans. Unlike prior work, our system is capable of generating detailed finger-object interactions, in seamless coordination with full-body movements. We also train a policy to track generated motions in physics simulation via reinforcement learning (RL) to ensure physical plausibility of the motion. Our experiments demonstrate the effectiveness of our system in synthesizing realistic interactions with diverse objects in complex environments, highlighting its potential for real-world applications.
Abstract（参考訳）: インテリジェントエージェントは、人間レベルの指示に基づいて日々のタスクを実行するために、環境と自律的に対話する必要がある。彼らはこれらの指示を正確に解釈するために世界の基本的理解と、派生した行動を実行するための正確な低レベルな動きと相互作用のスキルを必要としている。本研究では,人間レベルの指示によって駆動されるコンテキスト環境下でのオブジェクト操作のための,物理的に可塑性で長距離な人間オブジェクトインタラクションを合成する,最初の完全システムを提案する。我々は大規模言語モデル(LLM)を利用して入力命令を詳細な実行計画に解釈する。従来の作業とは異なり,本システムは全身運動とシームレスに協調して,詳細な指と物体の相互作用を生成できる。また、物理シミュレーションにおける生成した動きを強化学習(RL)により追跡し、運動の物理的妥当性を確保するためのポリシーを訓練する。本実験は,複雑な環境下での多種多様な物体との現実的な相互作用を合成するシステムの有効性を実証し,実世界の応用の可能性を明らかにするものである。

関連論文リスト

DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
HYPERmotion: Learning Hybrid Behavior Planning for Autonomous Loco-manipulation [7.01404330241523]
HYPERmotionは、異なるシナリオのタスクに基づいて行動を学び、選択し、計画するフレームワークである。強化学習と全身最適化を組み合わせることで,38関節の運動を生成する。シミュレーションと実世界の実験では、学習した動きが新しいタスクに効率的に適応できることが示されている。
論文参考訳（メタデータ） (2024-06-20T18:21:24Z)
Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文参考訳（メタデータ） (2024-06-17T17:55:40Z)
InsActor: Instruction-driven Physics-based Characters [65.4702927454252]
本稿では,物理系文字の命令駆動型アニメーションを生成する,原理的生成フレームワークを提案する。我々のフレームワークは、InsActorに高レベルな人間の指示とキャラクターの動きの間の複雑な関係をキャプチャする権限を与える。 InsActorは、命令駆動のモーション生成や命令駆動のウェイポイント誘導など、様々なタスクで最先端の結果を達成する。
論文参考訳（メタデータ） (2023-12-28T17:10:31Z)
ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2023-12-12T08:30:09Z)
Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文参考訳（メタデータ） (2023-12-06T21:14:20Z)
CG-HOI: Contact-Guided 3D Human-Object Interaction Generation [29.3564427724612]
テキストから動的3次元人-物体相互作用(HOI)を生成する最初の方法であるCG-HOIを提案する。意味的に豊かな人間の動きは、しばしば孤立して起こるので、人間と物体の両方の動きを相互依存的にモデル化する。我々は,接触に基づく人間と物体の相互作用が現実的かつ物理的に妥当なシーケンスを生成することを示す。
論文参考訳（メタデータ） (2023-11-27T18:59:10Z)
Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文参考訳（メタデータ） (2023-09-28T08:22:00Z)
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成本手法は時間座標のみでパラメータ化される連続運動を生成する。この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文参考訳（メタデータ） (2023-03-23T09:31:56Z)
IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文参考訳（メタデータ） (2022-12-14T23:59:24Z)
Synthesis and Execution of Communicative Robotic Movements with Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文参考訳（メタデータ） (2022-03-29T15:03:05Z)
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。 iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文参考訳（メタデータ） (2020-12-05T02:14:17Z)
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文参考訳（メタデータ） (2020-11-15T23:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。