論文の概要: Describe, Explain, Plan and Select: Interactive Planning with Large
Language Models Enables Open-World Multi-Task Agents
- arxiv url: http://arxiv.org/abs/2302.01560v1
- Date: Fri, 3 Feb 2023 06:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:13:17.225462
- Title: Describe, Explain, Plan and Select: Interactive Planning with Large
Language Models Enables Open-World Multi-Task Agents
- Title(参考訳): Describe, Explain, Plan and Select: オープンワールドマルチタスクエージェントを実現する大規模言語モデルによる対話型プランニング
- Authors: Zihao Wang, Shaofei Cai, Anji Liu, Xiaojian Ma, Yitao Liang
- Abstract要約: DEPS(Describe, Explain, Plan and Select)は,大規模言語モデル(LLM)に基づく対話型計画手法である。
私たちの実験は、70以上のMinecraftタスクをしっかりと達成し、全体的なパフォーマンスをほぼ2倍にするという、最初のマルチタスクエージェントのマイルストーンです。
- 参考スコア(独自算出の注目度): 14.228723084543605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of planning in Minecraft, a popular,
democratized yet challenging open-ended environment for developing multi-task
embodied agents. We've found two primary challenges of empowering such agents
with planning: 1) planning in an open-ended world like Minecraft requires
precise and multi-step reasoning due to the long-term nature of the tasks, and
2) as vanilla planners do not consider the proximity to the current agent when
ordering parallel sub-goals within a complicated plan, the resulting plan could
be inefficient. To this end, we propose "Describe, Explain, Plan and Select"
(DEPS), an interactive planning approach based on Large Language Models (LLMs).
Our approach helps with better error correction from the feedback during the
long-haul planning, while also bringing the sense of proximity via goal
Selector, a learnable module that ranks parallel sub-goals based on the
estimated steps of completion and improves the original plan accordingly. Our
experiments mark the milestone of the first multi-task agent that can robustly
accomplish 70+ Minecraft tasks and nearly doubles the overall performances.
Finally, the ablation and exploratory studies detail how our design beats the
counterparts and provide a promising update on the $\texttt{ObtainDiamond}$
grand challenge with our approach. The code is released at
https://github.com/CraftJarvis/MC-Planner.
- Abstract(参考訳): 本稿では,マルチタスクの具体化エージェントを開発する上で,ポピュラーで民主的で挑戦的なオープンエンド環境であるMinecraftの計画問題について検討する。
このようなエージェントを計画に力づける上での2つの大きな課題を見つけました
1)minecraftのようなオープンな世界での計画には,タスクの長期的性質から,正確かつ多段階的な推論が必要となる。
2)バニラプランナーは,複雑な計画内で並列サブゴールを発注する場合,現在のエージェントに近づかないため,計画の効率は低下する可能性がある。
そこで本研究では,大規模言語モデル(llms)に基づく対話型計画手法であるdescribe, explain, plan and select (deps)を提案する。
提案手法は,長期計画中のフィードバックによる誤り訂正に役立ち,目標選択モジュールによる近接感を学習可能なモジュールとして提供し,完了推定ステップに基づいて並列サブゴールをランク付けし,それに従って元の計画を改善する。
私たちの実験は、70以上のMinecraftタスクをしっかりと達成し、全体的なパフォーマンスをほぼ2倍にするという、最初のマルチタスクエージェントのマイルストーンです。
最後に、アブレーションと探索研究は、我々の設計がどのようにその設計に勝っているかを詳述し、我々のアプローチに対する大きな挑戦である$\texttt{ObtainDiamond}の有望なアップデートを提供する。
コードはhttps://github.com/craftjarvis/mc-plannerでリリースされる。
関連論文リスト
- Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Query-Efficient Planning with Language Models [8.136901056728945]
複雑な環境での計画では、エージェントがスタートからゴールまでの一連のアクションを見つけるために、ワールドモデルを効率的にクエリする必要がある。
最近の研究によると、Large Language Models(LLM)は、将来有望な状態を探索し、世界からのフィードバックに適応することによって、計画に役立つ可能性がある。
両アプローチが同等のベースラインで改善されているのに対して,LLMを生成プランナーとして使用すると,相互作用が大幅に減少することを示す。
論文 参考訳(メタデータ) (2024-12-09T02:51:21Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - NL2Plan: Robust LLM-Driven Planning from Minimal Text Descriptions [8.004470925893957]
ドメインに依存しない初めてのオフラインLCM駆動計画システムであるNL2Planを提案する。
我々はNL2Planを4つの計画領域で評価し、15のタスクのうち10を解くことを発見した。
エンド・ツー・エンドモードでのNL2Planの使用に加えて、ユーザは中間結果の検査と修正が可能である。
論文 参考訳(メタデータ) (2024-05-07T11:27:13Z) - m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks [31.031053149807857]
我々は、33のツールを含む4K以上のマルチステップマルチモーダルタスクを含むベンチマークであるm&m'sを紹介する。
これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。
1,565のタスクプランの高品質なサブセットを提供する。
論文 参考訳(メタデータ) (2024-03-17T04:36:18Z) - Consolidating Trees of Robotic Plans Generated Using Large Language
Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。
本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:01:59Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。