論文の概要: Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2412.19562v1
- Date: Fri, 27 Dec 2024 10:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:16.920429
- Title: Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following
- Title(参考訳): Hindsight Planner: 体外手術後の閉鎖型Few-Shot Planner
- Authors: Yuxiao Yang, Shenao Zhang, Zhihan Liu, Huaxiu Yao, Zhaoran Wang,
- Abstract要約: 本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
- 参考スコア(独自算出の注目度): 62.10809033451526
- License:
- Abstract: This work focuses on building a task planner for Embodied Instruction Following (EIF) using Large Language Models (LLMs). Previous works typically train a planner to imitate expert trajectories, treating this as a supervised task. While these methods achieve competitive performance, they often lack sufficient robustness. When a suboptimal action is taken, the planner may encounter an out-of-distribution state, which can lead to task failure. In contrast, we frame the task as a Partially Observable Markov Decision Process (POMDP) and aim to develop a robust planner under a few-shot assumption. Thus, we propose a closed-loop planner with an adaptation module and a novel hindsight method, aiming to use as much information as possible to assist the planner. Our experiments on the ALFRED dataset indicate that our planner achieves competitive performance under a few-shot assumption. For the first time, our few-shot agent's performance approaches and even surpasses that of the full-shot supervised agent.
- Abstract(参考訳): 本研究は,Large Language Models (LLMs) を用いた Embodied Instruction following (EIF) タスクプランナの構築に重点を置いている。
以前の作業は通常、プランナーに専門家の軌跡を模倣するように訓練し、これを監督されたタスクとして扱う。
これらの手法は競争力のある性能を達成するが、しばしば十分な堅牢性に欠ける。
最適な行動を取ると、プランナーは配布外状態に遭遇し、タスクの失敗につながる可能性がある。
対照的に、我々はタスクを部分観測可能なマルコフ決定プロセス(POMDP)として構成し、数発の仮定の下で堅牢なプランナーの開発を目指している。
そこで本研究では,適応モジュールと新しい後見手法を備えたクローズドループプランナを提案する。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
はじめて、我々の数発のエージェントのパフォーマンスが接近し、フルショットの監視エージェントのパフォーマンスを上回りました。
関連論文リスト
- Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling [23.62433580021779]
我々は、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。
効率的なクローズドループ計画のためのネスト型平衡系列モデリング手法を考案した。
提案手法はVirtualHome-Envベンチマークで評価され,性能が向上し,推論精度が向上した。
論文 参考訳(メタデータ) (2024-10-02T11:42:49Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
textbfDiffusion textbfPlannerを学習する2段階フレームワークである textbfSODP を提案する。
事前学習段階では,マルチタスクトラジェクトリの多目的分布をモデル化し,一般的な計画能力を抽出する基礎拡散プランナを訓練する。
そして、下流タスクに対して、拡散プランナーを高速に洗練するために、タスク固有の報酬を伴うRLベースの微調整を採用する。
論文 参考訳(メタデータ) (2024-09-30T05:05:37Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。
EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。
トレーニングデータを必要とせずに推測できる最初のゼロショットプランニング手法であるソクラティックプランナーを紹介する。
論文 参考訳(メタデータ) (2024-04-21T08:10:20Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Skip-Plan: Procedure Planning in Instructional Videos via Condensed
Action Space Learning [85.84504287685884]
Skip-Plan(スキップ・プラン)は、訓練ビデオにおけるプロシージャ計画のための凝縮された行動空間学習法である。
アクションチェーン内の不確実なノードやエッジをスキップすることで、長いシーケンス関数と複雑なシーケンス関数を短いが信頼できるものに転送する。
我々のモデルは、凝縮された作用空間内のアクションシーケンス内で、あらゆる種類の信頼できる部分関係を探索する。
論文 参考訳(メタデータ) (2023-10-01T08:02:33Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。