Fugu-MT 論文翻訳(概要): TravelPlanner: A Benchmark for Real-World Planning with Language Agents

論文の概要: TravelPlanner: A Benchmark for Real-World Planning with Language Agents

arxiv url: http://arxiv.org/abs/2402.01622v2
Date: Mon, 5 Feb 2024 06:48:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 12:00:55.619543
Title: TravelPlanner: A Benchmark for Real-World Planning with Language Agents
Title（参考訳）: TravelPlanner: 言語エージェントによる実世界の計画ベンチマーク
Authors: Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou, Yuandong Tian, Yanghua Xiao, Yu Su
Abstract要約: 我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
参考スコア（独自算出の注目度）: 65.57612528270735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for human-level planning have been lacking. Recently, language agents powered by large language models (LLMs) have shown interesting capabilities such as tool use and reasoning. Are these language agents capable of planning in more complex settings that are out of the reach of prior AI agents? To advance this investigation, we propose TravelPlanner, a new planning benchmark that focuses on travel planning, a common real-world planning scenario. It provides a rich sandbox environment, various tools for accessing nearly four million data records, and 1,225 meticulously curated planning intents and reference plans. Comprehensive evaluations show that the current language agents are not yet capable of handling such complex planning tasks-even GPT-4 only achieves a success rate of 0.6%. Language agents struggle to stay on task, use the right tools to collect information, or keep track of multiple constraints. However, we note that the mere possibility for language agents to tackle such a complex problem is in itself non-trivial progress. TravelPlanner provides a challenging yet meaningful testbed for future language agents.
Abstract（参考訳）: 計画はその概念以来、人工知能のコアな追求の一部であるが、初期のaiエージェントは、人間レベルの計画に必要な認知基質の多くが不足しているため、制約のある設定に重点を置いていた。近年,大規模言語モデル(llms)を活用した言語エージェントが,ツールの使用や推論といった興味深い機能を示している。これらの言語エージェントは、以前のAIエージェントの範囲外にある、より複雑な設定で計画できるのでしょうか? 本研究を進めるために,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。豊富なサンドボックス環境、400万近いデータレコードにアクセスするための様々なツール、細心の注意深い計画の意図と参照計画を提供する。包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。言語エージェントはタスクに留まるのに苦労し、適切なツールを使って情報を集め、複数の制約を追跡する。しかし、そのような複雑な問題に言語エージェントが取り組む可能性は、それ自体は自明な進歩である。 travelplannerは将来の言語エージェントに対して、挑戦的で有意義なテストベッドを提供する。

関連論文リスト

RETAIL: Towards Real-world Travel Planning for Large Language Models [36.75531019697594]
明示的なクエリをカバーしながら、暗黙的なクエリの意思決定をサポートする新しいデータセット textbfRETAIL を提案する。また、環境意識が現実のシナリオで計画の実現性を確保すると同時に、オールインワンの旅行計画に詳細なPOI情報を組み込むことも可能である。実験の結果,最強の既存モデルでさえ11.0%のパス率しか達成していないことが明らかとなった。
論文参考訳（メタデータ） (2025-08-21T08:08:38Z)
TripTailor: A Real-World Benchmark for Personalized Travel Planning [28.965273870656446]
TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
論文参考訳（メタデータ） (2025-08-02T16:44:02Z)
Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM [58.50687282180444]
旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。我々はこれをL3$プランニング問題として定式化し、長いコンテキスト、長い命令、長い出力を強調する。計画の多面的側面 (MAoP) を導入し, LLM が複雑な計画問題の解決のために広義の思考を行えるようにした。
論文参考訳（メタデータ） (2025-06-14T09:37:59Z)
ChinaTravel: A Real-World Benchmark for Language Agents in Chinese Travel Planning [50.7898120693695]
ChinaTravelは、中国の旅行計画シナリオに特化して設計されたベンチマークである。質問紙から旅行要求を収集し,構成的に一般化可能なドメイン特化言語を提案する。実証研究により、旅行計画における神経象徴薬の可能性を明らかにし、27.9%の制約満足度を達成した。我々は、オープン言語推論や未確認概念構成など、現実世界の旅行計画展開における重要な課題を特定します。
論文参考訳（メタデータ） (2024-12-18T10:10:12Z)
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。 EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文参考訳（メタデータ） (2024-12-05T18:57:23Z)
One STEP at a time: Language Agents are Stepwise Planners [9.877911778606014]
本稿では,従来の経験から学習し,言語エージェントの計画能力を高めるためのフレームワークSTEPを紹介する。ステップはScienceWorldベンチマークの最先端モデルよりも一貫して優れています。これらの知見はSTEPが言語エージェントの計画能力を高めるためのフレームワークとしての可能性を示している。
論文参考訳（メタデータ） (2024-11-13T08:32:42Z)
Revealing the Barriers of Language Agents in Planning [44.913745512049246]
現在の言語エージェントにはまだ人間レベルの計画能力がないことが示されています。最先端の推論モデルであるOpenAI o1でさえ、複雑な現実世界の計画ベンチマークの1つで15.6%しか達成していない。エージェント・プランニングを妨げる2つの重要な要因として,制約の役割の制限と質問の影響の減少があげられる。
論文参考訳（メタデータ） (2024-10-16T09:44:38Z)
ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs [0.32141666878560626]
本稿では,リフレクティブ思考,計画,対話的推論のための新しいジェネラリストエージェントReasonPlannerを紹介する。 ReasonPlannerはScienceWorldベンチマークの従来の最先端のプロンプトベースの手法を1.8倍以上上回っている。凍結重量のみに依存するため、勾配更新は不要である。
論文参考訳（メタデータ） (2024-10-11T20:58:51Z)
Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文参考訳（メタデータ） (2024-06-26T17:59:18Z)
Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文参考訳（メタデータ） (2024-06-18T14:07:28Z)
TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。 LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文参考訳（メタデータ） (2024-06-14T17:31:16Z)
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文参考訳（メタデータ） (2024-03-05T16:39:12Z)
Learning adaptive planning representations with natural language guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。 Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文参考訳（メタデータ） (2023-12-13T23:35:31Z)
Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文参考訳（メタデータ） (2023-07-04T17:58:25Z)
Comprehensive Multi-Agent Epistemic Planning [0.0]
この写本は、MEP(Multi-Adnt Epistemic Planning)として知られる特殊な計画に重点を置いている。 EPは、エージェントが知識/信任状態の空間で理由付けを行い、開始状態から望ましい状態に到達する計画を見つけようとする自動計画環境を指す。その一般的な形であるMEP問題(英語版)は、世界の状態とエージェント間の情報の流れの両方を推論する必要がある複数のエージェントを含んでいる。
論文参考訳（メタデータ） (2021-09-17T01:50:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。