論文の概要: One STEP at a time: Language Agents are Stepwise Planners
- arxiv url: http://arxiv.org/abs/2411.08432v1
- Date: Wed, 13 Nov 2024 08:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:12:05.513238
- Title: One STEP at a time: Language Agents are Stepwise Planners
- Title(参考訳): 一度に1つのSTEP:言語エージェントはステップワイドプランナーである
- Authors: Minh Nguyen, Ehsan Shareghi,
- Abstract要約: 本稿では,従来の経験から学習し,言語エージェントの計画能力を高めるためのフレームワークSTEPを紹介する。
ステップはScienceWorldベンチマークの最先端モデルよりも一貫して優れています。
これらの知見はSTEPが言語エージェントの計画能力を高めるためのフレームワークとしての可能性を示している。
- 参考スコア(独自算出の注目度): 9.877911778606014
- License:
- Abstract: Language agents have shown promising adaptability in dynamic environments to perform complex tasks. However, despite the versatile knowledge embedded in large language models, these agents still fall short when it comes to tasks that require planning. We introduce STEP, a novel framework designed to efficiently learn from previous experiences to enhance the planning capabilities of language agents in future steps. Concretely, STEP functions through four interconnected components. First, the Planner takes on the task, breaks it down into subtasks and provides relevant insights. Then the Executor generates action candidates, while the Evaluator ensures the actions align with learned rules from previous experiences. Lastly, Memory stores experiences to inform future decisions. In the ScienceWorld benchmark, our results show that STEP consistently outperforms state-of-the-art models, achieving an overall score of 67.4 and successfully completing 12 out of 18 tasks. These findings highlight STEP's potential as a framework for enhancing planning capabilities in language agents, paving the way for more sophisticated task-solving in dynamic environments.
- Abstract(参考訳): 言語エージェントは、複雑なタスクを実行するための動的環境における有望な適応性を示している。
しかし、大きな言語モデルに埋め込まれた多彩な知識にもかかわらず、これらのエージェントは計画を必要とするタスクに関してはまだ不足している。
本稿では,従来の経験から効率的に学習し,将来のステップにおける言語エージェントの計画能力を向上する新しいフレームワークSTEPを紹介する。
具体的には、STEPは4つの相互接続されたコンポーネントを介して機能する。
まず、Plannerがタスクを受け取り、それをサブタスクに分解し、関連する洞察を提供する。
次に、実行者はアクション候補を生成し、評価器は、前の経験から学んだルールに一致することを保証します。
最後に、Memoryは、将来の決定を伝えるエクスペリエンスを格納する。
ScienceWorldのベンチマークでは、STEPは最先端モデルよりも一貫して優れており、総合スコアは67.4となり、18タスク中12タスクが完了した。
これらの知見はSTEPが言語エージェントの計画能力を高めるためのフレームワークとしての可能性を示し、動的環境におけるより洗練されたタスク解決の道を開いた。
関連論文リスト
- AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [89.68433168477227]
LLM(Large Language Model)ベースのエージェントは注目され、ますます人気が高まっている。
本稿では,LLMの学習指導による計画能力の向上について検討する。
この制限に対処するために,多様な環境の自動合成と段階的な計画課題について検討する。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。