Fugu-MT 論文翻訳(概要): LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models

論文の概要: LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models

arxiv url: http://arxiv.org/abs/2212.04088v1
Date: Thu, 8 Dec 2022 05:46:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 14:22:35.523878
Title: LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models
Title（参考訳）: LLM-Planner:大規模言語モデルを用いた身体的エージェントの接地計画
Authors: Chan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun Chao, Yu Su
Abstract要約: 本研究は,視覚的に知覚された環境下で,自然言語の指示に従って複雑なタスクを完了できるエンボディエージェントに焦点を当てた。既存の手法は、優れたポリシーを学ぶために大量の(指示、金の軌道)ペアに依存している。本稿では,大規模言語モデルのパワーを活かし,エンボディエージェントの少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
参考スコア（独自算出の注目度）: 27.318186938382233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study focuses on embodied agents that can follow natural language instructions to complete complex tasks in a visually-perceived environment. Existing methods rely on a large amount of (instruction, gold trajectory) pairs to learn a good policy. The high data cost and poor sample efficiency prevents the development of versatile agents that are capable of many tasks and can learn new tasks quickly. In this work, we propose a novel method, LLM-Planner, that harnesses the power of large language models (LLMs) such as GPT-3 to do few-shot planning for embodied agents. We further propose a simple but effective way to enhance LLMs with physical grounding to generate plans that are grounded in the current environment. Experiments on the ALFRED dataset show that our method can achieve very competitive few-shot performance, even outperforming several recent baselines that are trained using the full training data despite using less than 0.5% of paired training data. Existing methods can barely complete any task successfully under the same few-shot setting. Our work opens the door for developing versatile and sample-efficient embodied agents that can quickly learn many tasks.
Abstract（参考訳）: 本研究は,視覚的に知覚された環境下で,自然言語の指示に従って複雑なタスクを完了できるエンボディエージェントに焦点を当てた。既存の手法は良い政策を学ぶために大量の(指示、金の軌道)ペアに依存している。高いデータコストとサンプル効率の低さは、多くのタスクをこなし、新しいタスクを素早く学習できる汎用エージェントの開発を妨げる。本研究では, GPT-3 などの大規模言語モデル (LLM) のパワーを利用して, エンボディエージェントの少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。また,現在の環境に根ざした計画を生成するために,物理接地によるLCMの簡易かつ効果的な拡張手法を提案する。 ALFREDデータセットの実験により、我々の手法は、0.5%未満のペアトレーニングデータを使用しながら、完全なトレーニングデータを使用してトレーニングされた最近のベースラインよりも優れています。既存のメソッドは、同じ数ショット設定で、どんなタスクでもほとんど完了できません。我々の研究は、多くのタスクを素早く学習できる多目的でサンプル効率の良いエンボディエージェントを開発するための扉を開く。

関連論文リスト

SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation [20.743117921048537]
SmallPlanは、教師モデルとしてLarge Language Modelsを活用して、ハイレベルパス計画タスクのために軽量なSLM(Small Language Models)をトレーニングする新しいフレームワークである。 SLMは、シミュレーション駆動のインターリーブ方式で、LLM指導による微調整と強化学習によって訓練される。 SmallPlanはリソース効率が良く、エッジデバイス展開や実用的な自律ロボット工学の進歩に適している。
論文参考訳（メタデータ） (2025-05-01T19:44:36Z)
LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.914580097058106]
両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文参考訳（メタデータ） (2025-03-21T17:04:01Z)
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。 Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。 We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文参考訳（メタデータ） (2025-03-12T17:40:52Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。 KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文参考訳（メタデータ） (2024-06-20T13:07:38Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文参考訳（メタデータ） (2024-05-04T20:34:06Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。 LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文参考訳（メタデータ） (2023-08-11T21:17:13Z)
AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文参考訳（メタデータ） (2023-05-26T05:52:27Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。