論文の概要: TravelPlanner: A Benchmark for Real-World Planning with Language Agents
- arxiv url: http://arxiv.org/abs/2402.01622v3
- Date: Sun, 23 Jun 2024 08:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:11:02.842055
- Title: TravelPlanner: A Benchmark for Real-World Planning with Language Agents
- Title(参考訳): TravelPlanner: 言語エージェントによる実世界の計画ベンチマーク
- Authors: Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su,
- Abstract要約: 我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
- 参考スコア(独自算出の注目度): 63.199454024966506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for human-level planning have been lacking. Recently, language agents powered by large language models (LLMs) have shown interesting capabilities such as tool use and reasoning. Are these language agents capable of planning in more complex settings that are out of the reach of prior AI agents? To advance this investigation, we propose TravelPlanner, a new planning benchmark that focuses on travel planning, a common real-world planning scenario. It provides a rich sandbox environment, various tools for accessing nearly four million data records, and 1,225 meticulously curated planning intents and reference plans. Comprehensive evaluations show that the current language agents are not yet capable of handling such complex planning tasks-even GPT-4 only achieves a success rate of 0.6%. Language agents struggle to stay on task, use the right tools to collect information, or keep track of multiple constraints. However, we note that the mere possibility for language agents to tackle such a complex problem is in itself non-trivial progress. TravelPlanner provides a challenging yet meaningful testbed for future language agents.
- Abstract(参考訳): 計画は、人工知能の構想以来、中核的な追求の1つとなっているが、初期のAIエージェントは、人間レベルの計画に必要な認知的基盤の多くが欠如しているため、主に制約された設定に焦点を当てていた。
近年,大規模言語モデル(LLM)を利用した言語エージェントは,ツールの使用や推論といった興味深い機能を示している。
これらの言語エージェントは、以前のAIエージェントの範囲外にある、より複雑な設定で計画できるのでしょうか?
本研究を進めるために,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
言語エージェントはタスクを継続したり、適切なツールを使って情報を収集したり、複数の制約を追跡するのに苦労する。
しかし、そのような複雑な問題に言語エージェントが取り組む可能性は、それ自体は自明な進歩ではないことに留意する。
TravelPlannerは、将来の言語エージェントにとって、挑戦的で有意義なテストベッドを提供する。
関連論文リスト
- Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied
Agents [2.8927500190704567]
大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。
本稿では,ホームサービス実施エージェントのタスクプランニング性能を定量的に評価するベンチマークシステムを提案する。
論文 参考訳(メタデータ) (2024-02-13T02:28:57Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Comprehensive Multi-Agent Epistemic Planning [0.0]
この写本は、MEP(Multi-Adnt Epistemic Planning)として知られる特殊な計画に重点を置いている。
EPは、エージェントが知識/信任状態の空間で理由付けを行い、開始状態から望ましい状態に到達する計画を見つけようとする自動計画環境を指す。
その一般的な形であるMEP問題(英語版)は、世界の状態とエージェント間の情報の流れの両方を推論する必要がある複数のエージェントを含んでいる。
論文 参考訳(メタデータ) (2021-09-17T01:50:18Z) - Actions You Can Handle: Dependent Types for AI Plans [2.064612766965483]
本稿では,AIプランナが作成したプランを依存型言語Agdaに組み込む手法を提案する。
ユーザーは、計画のより一般的で抽象的な特性を推論し、検証することができる。
論文 参考訳(メタデータ) (2021-05-24T13:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。