論文の概要: TravelPlanner: A Benchmark for Real-World Planning with Language Agents
- arxiv url: http://arxiv.org/abs/2402.01622v2
- Date: Mon, 5 Feb 2024 06:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 12:00:55.619543
- Title: TravelPlanner: A Benchmark for Real-World Planning with Language Agents
- Title(参考訳): TravelPlanner: 言語エージェントによる実世界の計画ベンチマーク
- Authors: Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong
Tian, Yanghua Xiao, Yu Su
- Abstract要約: 我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
- 参考スコア(独自算出の注目度): 65.57612528270735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning has been part of the core pursuit for artificial intelligence since
its conception, but earlier AI agents mostly focused on constrained settings
because many of the cognitive substrates necessary for human-level planning
have been lacking. Recently, language agents powered by large language models
(LLMs) have shown interesting capabilities such as tool use and reasoning. Are
these language agents capable of planning in more complex settings that are out
of the reach of prior AI agents? To advance this investigation, we propose
TravelPlanner, a new planning benchmark that focuses on travel planning, a
common real-world planning scenario. It provides a rich sandbox environment,
various tools for accessing nearly four million data records, and 1,225
meticulously curated planning intents and reference plans. Comprehensive
evaluations show that the current language agents are not yet capable of
handling such complex planning tasks-even GPT-4 only achieves a success rate of
0.6%. Language agents struggle to stay on task, use the right tools to collect
information, or keep track of multiple constraints. However, we note that the
mere possibility for language agents to tackle such a complex problem is in
itself non-trivial progress. TravelPlanner provides a challenging yet
meaningful testbed for future language agents.
- Abstract(参考訳): 計画はその概念以来、人工知能のコアな追求の一部であるが、初期のaiエージェントは、人間レベルの計画に必要な認知基質の多くが不足しているため、制約のある設定に重点を置いていた。
近年,大規模言語モデル(llms)を活用した言語エージェントが,ツールの使用や推論といった興味深い機能を示している。
これらの言語エージェントは、以前のAIエージェントの範囲外にある、より複雑な設定で計画できるのでしょうか?
本研究を進めるために,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするための様々なツール、細心の注意深い計画の意図と参照計画を提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
言語エージェントはタスクに留まるのに苦労し、適切なツールを使って情報を集め、複数の制約を追跡する。
しかし、そのような複雑な問題に言語エージェントが取り組む可能性は、それ自体は自明な進歩である。
travelplannerは将来の言語エージェントに対して、挑戦的で有意義なテストベッドを提供する。
関連論文リスト
- PARADISE: Evaluating Implicit Planning Skills of Language Models with
Procedural Warnings and Tips Dataset [2.0285519161103576]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied
Agents [2.8927500190704567]
大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。
本稿では,ホームサービス実施エージェントのタスクプランニング性能を定量的に評価するベンチマークシステムを提案する。
論文 参考訳(メタデータ) (2024-02-13T02:28:57Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Comprehensive Multi-Agent Epistemic Planning [0.0]
この写本は、MEP(Multi-Adnt Epistemic Planning)として知られる特殊な計画に重点を置いている。
EPは、エージェントが知識/信任状態の空間で理由付けを行い、開始状態から望ましい状態に到達する計画を見つけようとする自動計画環境を指す。
その一般的な形であるMEP問題(英語版)は、世界の状態とエージェント間の情報の流れの両方を推論する必要がある複数のエージェントを含んでいる。
論文 参考訳(メタデータ) (2021-09-17T01:50:18Z) - Actions You Can Handle: Dependent Types for AI Plans [2.064612766965483]
本稿では,AIプランナが作成したプランを依存型言語Agdaに組み込む手法を提案する。
ユーザーは、計画のより一般的で抽象的な特性を推論し、検証することができる。
論文 参考訳(メタデータ) (2021-05-24T13:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。