Fugu-MT 論文翻訳(概要): ThinkBot: Embodied Instruction Following with Thought Chain Reasoning

論文の概要: ThinkBot: Embodied Instruction Following with Thought Chain Reasoning

arxiv url: http://arxiv.org/abs/2312.07062v2
Date: Thu, 14 Dec 2023 03:28:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 11:59:32.501942
Title: ThinkBot: Embodied Instruction Following with Thought Chain Reasoning
Title（参考訳）: ThinkBot: 思考連鎖推論による身体的指導
Authors: Guanxing Lu, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang
Abstract要約: EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
参考スコア（独自算出の注目度）: 66.09880459084901
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied Instruction Following (EIF) requires agents to complete human instruction by interacting objects in complicated surrounding environments. Conventional methods directly consider the sparse human instruction to generate action plans for agents, which usually fail to achieve human goals because of the instruction incoherence in action descriptions. On the contrary, we propose ThinkBot that reasons the thought chain in human instruction to recover the missing action descriptions, so that the agent can successfully complete human goals by following the coherent instruction. Specifically, we first design an instruction completer based on large language models to recover the missing actions with interacted objects between consecutive human instruction, where the perceived surrounding environments and the completed sub-goals are considered for instruction completion. Based on the partially observed scene semantic maps, we present an object localizer to infer the position of interacted objects for agents to achieve complex human goals. Extensive experiments in the simulated environment show that our ThinkBot outperforms the state-of-the-art EIF methods by a sizable margin in both success rate and execution efficiency.
Abstract（参考訳）: EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。従来の手法では、エージェントのアクションプランを生成するための粗末な人間の指示を直接考慮しており、通常はアクション記述における命令の不整合のため、人間の目標達成に失敗する。それとは対照的に,ThinkBotでは,人間の指示における思考連鎖が欠落した行動記述を復元し,エージェントが一貫性のある指示に従うことで人間の目標を達成できるようにする。具体的には,まず大規模言語モデルに基づくインストラクションコンプタの設計を行い,インストラクションコンプタに知覚された環境と完結したサブゴールが考慮される連続したヒューマンインストラクション間の対話オブジェクトとの動作の欠如を復元する。部分観察されたシーンセマンティックマップに基づいて,エージェントが複雑な目標を達成するために対話対象の位置を推定するオブジェクトローカライザを提案する。シミュレーション環境における大規模な実験により、ThinkBotは成功率と実行効率の両面で、最先端のEIF手法よりも優れた性能を示した。

関連論文リスト

Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation [17.449836528972867]
本稿では,ヒューマノイド・ロコ・マニピュレーションのためのテキスト・インストラクションからアクションを自律的に計画するために,行動推論手法の具体的連鎖を適用した新しい枠組みを提案する。提案手法は,人型特有の思考方法論の連鎖を組み込んだもので,作業の細部や体の動きを解析し,作業の行程を移動行動と操作行動の連続に分解する。本手法が上下半身制御における有効性を評価し,人間の指示を理解する上でのロボット行動推論戦略の連鎖の有効性を実証した。
論文参考訳（メタデータ） (2025-04-13T11:37:32Z)
Infer Human's Intentions Before Following Natural Language Instructions [24.197496779892383]
本研究では,協調作業における自然言語学習の改善を目的とした,ソーシャル・エンボダイド推論によるフォローインストラクション(FISER)を提案する。我々のフレームワークは、中間的推論ステップとして、人間の目標と意図を明確に推論する。行動計画を立てる前に、社会的推論を用いて人間の意図を明示的に推測することが、純粋にエンドツーエンドのアプローチを超えることを実証的に実証する。
論文参考訳（メタデータ） (2024-09-26T17:19:49Z)
Human-Object Interaction from Human-Level Instructions [17.10279738828331]
本研究では、コンテキスト環境におけるオブジェクト操作のための人間とオブジェクトの相互作用を合成する最初の完全システムを提案する。我々は大規模言語モデル(LLM)を利用して入力命令を詳細な実行計画に解釈する。従来の作業とは異なり,本システムは全身運動とシームレスに協調して,詳細な指と物体の相互作用を生成できる。
論文参考訳（メタデータ） (2024-06-25T17:46:28Z)
Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文参考訳（メタデータ） (2024-06-17T17:55:40Z)
Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。 SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2024-04-08T15:22:38Z)
Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文参考訳（メタデータ） (2023-11-09T13:01:21Z)
Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文参考訳（メタデータ） (2023-10-04T00:50:21Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
SEAL: Semantic Frame Execution And Localization for Perceiving Afforded Robot Actions [5.522839151632667]
本稿では,ロボット操作行動のセマンティックフレーム表現を拡張し,セマンティックフレーム実行と局所化の問題をグラフィカルモデルとして導入する。 SEAL問題に対して、ロボットに与えられた行動の場所として、有限のセマンティックフレームに対する信念を維持するための非パラメトリックセマンティックフレームマッピング(SeFM)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2023-03-24T15:25:41Z)
A Persistent Spatial Semantic Representation for High-level Natural Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文参考訳（メタデータ） (2021-07-12T17:47:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。