論文の概要: TravelBench: A Real-World Benchmark for Multi-Turn and Tool-Augmented Travel Planning
- arxiv url: http://arxiv.org/abs/2512.22673v1
- Date: Sat, 27 Dec 2025 18:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.172332
- Title: TravelBench: A Real-World Benchmark for Multi-Turn and Tool-Augmented Travel Planning
- Title(参考訳): TravelBench: マルチTurnとツール拡張トラベル計画のための実世界のベンチマーク
- Authors: Xiang Cheng, Yulan Hu, Xiangwen Zhang, Lu Xu, Zheng Pan, Xin Li, Yong Liu,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、計画とツールの使用において強力な能力を示している。
旅行プランニングは、これらの機能に対する自然かつ高インパクトなテストベッドを提供する。
本稿では,マルチターンインタラクションとツール利用を特徴とする実世界の旅行計画ベンチマークであるTravelBenchを紹介する。
- 参考スコア(独自算出の注目度): 22.3041021610283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have demonstrated strong capabilities in planning and tool use. Travel planning provides a natural and high-impact testbed for these capabilities, as it requires multi-step reasoning, iterative preference elicitation through interaction, and calls to external tools under evolving constraints. Prior work has studied LLMs on travel-planning tasks, but existing settings are limited in domain coverage and multi-turn interaction. As a result, they cannot support dynamic user-agent interaction and therefore fail to comprehensively assess agent capabilities. In this paper, we introduce TravelBench, a real-world travel-planning benchmark featuring multi-turn interaction and tool use. We collect user requests from real-world scenarios and construct three subsets-multi-turn, single-turn, and unsolvable-to evaluate different aspects of agent performance. For stable and reproducible evaluation, we build a controlled sandbox environment with 10 travel-domain tools, providing deterministic tool outputs for reliable reasoning. We evaluate multiple LLMs on TravelBench and conduct an analysis of their behaviors and performance. TravelBench offers a practical and reproducible benchmark for advancing LLM agents in travel planning.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、計画とツールの使用において強力な能力を示している。
トラベルプランニングは、これらの機能に対して自然でインパクトの高いテストベッドを提供する。多段階の推論、インタラクションによる反復的な選好の誘導、進化する制約の下で外部ツールを呼び出すことが必要である。
これまで、旅行計画タスクのLLMについて研究してきたが、既存の設定はドメインカバレッジとマルチターンインタラクションに限られていた。
結果として、動的ユーザエージェントのインタラクションをサポートできないため、エージェント機能を包括的に評価することができない。
本稿では,マルチターンインタラクションとツール利用を特徴とする実世界の旅行計画ベンチマークであるTravelBenchを紹介する。
実世界のシナリオからユーザリクエストを収集し、エージェントのパフォーマンスの異なる側面を評価するために、マルチターン、シングルターン、未解決の3つのサブセットを構築します。
安定かつ再現可能な評価を行うため、10の旅行ドメインツールによる制御されたサンドボックス環境を構築し、信頼性の高い推論のための決定論的ツール出力を提供する。
本研究では,TravelBench 上で複数の LLM を評価し,その挙動と性能を解析する。
TravelBenchは、旅行計画におけるLLMエージェントの進歩のための実用的で再現可能なベンチマークを提供する。
関連論文リスト
- TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文 参考訳(メタデータ) (2025-10-06T07:30:25Z) - VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。
VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。
総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-30T16:33:49Z) - DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents [26.786926580388325]
旅行計画(TP)エージェントは、最近、旅行計画生成のための外部ツールやリソースと対話するための新しいビルディングブロックとして機能している。
本稿では,自律走行計画エージェントを構築するためのエージェント強化学習フレームワークであるDeepTravelを提案する。
論文 参考訳(メタデータ) (2025-09-26T04:03:52Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。
ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。
また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T14:21:33Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。