論文の概要: Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2404.15190v1
- Date: Sun, 21 Apr 2024 08:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:12:44.817769
- Title: Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following
- Title(参考訳): ソクラテスプランナー: 身体的指導後の調査に基づくゼロショットプランニング
- Authors: Suyeon Shin, Sujin jeon, Junghyun Kim, Gi-Cheon Kang, Byoung-Tak Zhang,
- Abstract要約: EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。
EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。
トレーニングデータを必要とせずに推測できる最初のゼロショットプランニング手法であるソクラティックプランナーを紹介する。
- 参考スコア(独自算出の注目度): 17.608330952846075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Instruction Following (EIF) is the task of executing natural language instructions by navigating and interacting with objects in 3D environments. One of the primary challenges in EIF is compositional task planning, which is often addressed with supervised or in-context learning with labeled data. To this end, we introduce the Socratic Planner, the first zero-shot planning method that infers without the need for any training data. Socratic Planner first decomposes the instructions into substructural information of the task through self-questioning and answering, translating it into a high-level plan, i.e., a sequence of subgoals. Subgoals are executed sequentially, with our visually grounded re-planning mechanism adjusting plans dynamically through a dense visual feedback. We also introduce an evaluation metric of high-level plans, RelaxedHLP, for a more comprehensive evaluation. Experiments demonstrate the effectiveness of the Socratic Planner, achieving competitive performance on both zero-shot and few-shot task planning in the ALFRED benchmark, particularly excelling in tasks requiring higher-dimensional inference. Additionally, a precise adjustments in the plan were achieved by incorporating environmental visual information.
- Abstract(参考訳): EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。
EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。
この目的のために,学習データを必要としないゼロショット計画手法であるソクラティック・プランナーを導入する。
ソクラティック・プランナーはまず命令を自己問合せと回答を通じてタスクのサブ構造情報に分解し、それをハイレベルなプラン、すなわち一連のサブゴールに翻訳する。
サブゴールは逐次実行され、視覚的フィードバックによって動的に計画を調整する視覚的な再計画機構が組み込まれている。
また,より包括的な評価のために,高レベルプランの評価基準であるRelaxedHLPを導入する。
実験はソクラティック・プランナーの有効性を実証し、ALFREDベンチマークにおいてゼロショットと少数ショットのタスク計画の両方で競合性能を達成し、特に高次元の推論を必要とするタスクにおいて優れていることを示した。
さらに,環境視覚情報を取り入れることで,計画の精密な調整が達成された。
関連論文リスト
- Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form
Narrative Text Generation [114.50719922069261]
長文物語テキスト生成のための評価誘導反復計画抽出法(EIPE-text)を提案する。
EIPEテキストには、計画抽出、学習、推論の3段階がある。
小説やストーリーテリングの分野におけるEIPEテキストの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-12T10:21:37Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。