論文の概要: Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2404.15190v2
- Date: Wed, 26 Mar 2025 07:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:16.317767
- Title: Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following
- Title(参考訳): Socratic Planner: 自己QAベースのゼロショットプランニング
- Authors: Suyeon Shin, Sujin jeon, Junghyun Kim, Gi-Cheon Kang, Byoung-Tak Zhang,
- Abstract要約: EIF(Embodied Instruction following)は、対話型環境でオブジェクトをナビゲートし、対話することによって自然言語命令を実行するタスクである。
EIFにおける重要な課題は、典型的には教師付き学習やラベル付きデータによる少数ショットのインコンテキスト学習を通じて対処される構成的タスク計画である。
本稿では,自己QAに基づくゼロショット計画手法であるソクラティック・プランナーを紹介する。
- 参考スコア(独自算出の注目度): 17.608330952846075
- License:
- Abstract: Embodied Instruction Following (EIF) is the task of executing natural language instructions by navigating and interacting with objects in interactive environments. A key challenge in EIF is compositional task planning, typically addressed through supervised learning or few-shot in-context learning with labeled data. To this end, we introduce the Socratic Planner, a self-QA-based zero-shot planning method that infers an appropriate plan without any further training. The Socratic Planner first facilitates self-questioning and answering by the Large Language Model (LLM), which in turn helps generate a sequence of subgoals. While executing the subgoals, an embodied agent may encounter unexpected situations, such as unforeseen obstacles. The Socratic Planner then adjusts plans based on dense visual feedback through a visually-grounded re-planning mechanism. Experiments demonstrate the effectiveness of the Socratic Planner, outperforming current state-of-the-art planning models on the ALFRED benchmark across all metrics, particularly excelling in long-horizon tasks that demand complex inference. We further demonstrate its real-world applicability through deployment on a physical robot for long-horizon tasks.
- Abstract(参考訳): EIF(Embodied Instruction following)は、対話型環境でオブジェクトをナビゲートし、対話することによって自然言語命令を実行するタスクである。
EIFにおける重要な課題は、典型的には教師付き学習やラベル付きデータによる少数ショットのインコンテキスト学習を通じて対処される構成的タスク計画である。
この目的のために,自己QAに基づくゼロショット計画手法であるソクラティック・プランナーを導入する。
Socratic Planner はまず,Large Language Model (LLM) による自己問合せと回答を促進する。
サブゴールの実行中、エンボディード・エージェントは、予期せぬ障害物のような予期せぬ状況に遭遇する可能性がある。
ソクラティックプランナーは、視覚的な再計画機構を通じて、密集した視覚フィードバックに基づいて計画を調整する。
実験では、ソクラティックプランナーの有効性が示され、ALFREDベンチマークにおける現在の最先端の計画モデルよりも優れており、特に複雑な推論を必要とする長期タスクにおいて優れています。
さらに,長距離作業のための物理ロボットへの展開を通じて,実世界の応用性を実証する。
関連論文リスト
- Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。