論文の概要: LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large
Language Models
- arxiv url: http://arxiv.org/abs/2212.04088v1
- Date: Thu, 8 Dec 2022 05:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:22:35.523878
- Title: LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large
Language Models
- Title(参考訳): LLM-Planner:大規模言語モデルを用いた身体的エージェントの接地計画
- Authors: Chan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun
Chao, Yu Su
- Abstract要約: 本研究は,視覚的に知覚された環境下で,自然言語の指示に従って複雑なタスクを完了できるエンボディエージェントに焦点を当てた。
既存の手法は、優れたポリシーを学ぶために大量の(指示、金の軌道)ペアに依存している。
本稿では,大規模言語モデルのパワーを活かし,エンボディエージェントの少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
- 参考スコア(独自算出の注目度): 27.318186938382233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study focuses on embodied agents that can follow natural language
instructions to complete complex tasks in a visually-perceived environment.
Existing methods rely on a large amount of (instruction, gold trajectory) pairs
to learn a good policy. The high data cost and poor sample efficiency prevents
the development of versatile agents that are capable of many tasks and can
learn new tasks quickly. In this work, we propose a novel method, LLM-Planner,
that harnesses the power of large language models (LLMs) such as GPT-3 to do
few-shot planning for embodied agents. We further propose a simple but
effective way to enhance LLMs with physical grounding to generate plans that
are grounded in the current environment. Experiments on the ALFRED dataset show
that our method can achieve very competitive few-shot performance, even
outperforming several recent baselines that are trained using the full training
data despite using less than 0.5% of paired training data. Existing methods can
barely complete any task successfully under the same few-shot setting. Our work
opens the door for developing versatile and sample-efficient embodied agents
that can quickly learn many tasks.
- Abstract(参考訳): 本研究は,視覚的に知覚された環境下で,自然言語の指示に従って複雑なタスクを完了できるエンボディエージェントに焦点を当てた。
既存の手法は良い政策を学ぶために大量の(指示、金の軌道)ペアに依存している。
高いデータコストとサンプル効率の低さは、多くのタスクをこなし、新しいタスクを素早く学習できる汎用エージェントの開発を妨げる。
本研究では, GPT-3 などの大規模言語モデル (LLM) のパワーを利用して, エンボディエージェントの少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
また,現在の環境に根ざした計画を生成するために,物理接地によるLCMの簡易かつ効果的な拡張手法を提案する。
ALFREDデータセットの実験により、我々の手法は、0.5%未満のペアトレーニングデータを使用しながら、完全なトレーニングデータを使用してトレーニングされた最近のベースラインよりも優れています。
既存のメソッドは、同じ数ショット設定で、どんなタスクでもほとんど完了できません。
我々の研究は、多くのタスクを素早く学習できる多目的でサンプル効率の良いエンボディエージェントを開発するための扉を開く。
関連論文リスト
- Formal-LLM: Integrating Formal Language and Natural Language for
Controllable LLM-based Agents [42.41596981580518]
大規模言語モデル(LLM)により、AIエージェントは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行することができる。
しかし、現在のLLMベースのエージェントは、しばしば無効または実行不可能な計画を生成する。
本稿では,自然言語の表現性と形式言語の精度を統合することで,LLMをベースとしたエージェントのための新しいフォーマルLLM'フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-01T17:30:50Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。
LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文 参考訳(メタデータ) (2023-08-11T21:17:13Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Understanding the Capabilities of Large Language Models for Automated
Planning [24.37599752610625]
この研究は、複雑な計画問題の解決におけるLLMの能力に光を当てようとしている。
この文脈で LLM を使用するための最も効果的なアプローチに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-25T15:21:09Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。