論文の概要: TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning
- arxiv url: http://arxiv.org/abs/2512.22673v2
- Date: Mon, 05 Jan 2026 13:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.628762
- Title: TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning
- Title(参考訳): TravelBench: マルチTurnとツールを使った旅行計画のためのより広範な実世界のベンチマーク
- Authors: Xiang Cheng, Yulan Hu, Xiangwen Zhang, Lu Xu, Zheng Pan, Xin Li, Yong Liu,
- Abstract要約: 旅行計画は、大規模言語モデル(LLM)計画とツール使用能力をテストするための自然な現実的なタスクである。
TravelBenchは、完全な現実世界の旅行計画のベンチマークである。
- 参考スコア(独自算出の注目度): 22.3041021610283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Travel planning is a natural real-world task to test large language models (LLMs) planning and tool-use abilities. Although prior work has studied LLM performance on travel planning, existing settings still differ from real-world needs, mainly due to limited domain coverage, insufficient modeling of users' implicit preferences in multi-turn conversations, and a lack of clear evaluation of agents' capability boundaries. To mitigate these gaps, we propose \textbf{TravelBench}, a benchmark for fully real-world travel planning. We collect user queries, user profile and tools from real scenarios, and construct three subtasks-Single-Turn, Multi-Turn, and Unsolvable-to evaluate agent's three core capabilities in real settings: (1) solving problems autonomously, (2) interacting with users over multiple turns to refine requirements, and (3) recognizing the limits of own abilities. To enable stable tool invocation and reproducible evaluation, we cache real tool-call results and build a sandbox environment that integrates ten travel-related tools. Agents can combine these tools to solve most practical travel planning problems, and our systematic verification demonstrates the stability of the proposed benchmark. We further evaluate multiple LLMs on TravelBench and conduct an in-depth analysis of their behaviors and performance. TravelBench provides a practical and reproducible evaluation benchmark to advance research on LLM agents for travel planning.\footnote{Our code and data will be available after internal review.
- Abstract(参考訳): 旅行計画は、大規模言語モデル(LLM)計画とツール使用能力をテストするための自然な現実的なタスクである。
これまでの研究では、旅行計画におけるLLMの性能について研究されてきたが、既存の設定は、ドメインカバレッジの制限、マルチターン会話におけるユーザの暗黙の好みのモデリングの不十分、エージェントの能力境界の明確な評価の欠如など、現実世界のニーズとは相変わらず異なる。
これらのギャップを軽減するために,実世界の旅行計画のベンチマークであるtextbf{TravelBench}を提案する。
我々は,実際のシナリオからユーザクエリ,ユーザプロファイル,ツールを収集し,エージェントの3つのコア機能を評価するための3つのサブタスク(Single-Turn, Multi-Turn, Unsolvable-to)を構築する。
安定したツール呼び出しと再現可能な評価を可能にするため、実際のツールコール結果をキャッシュし、10つの旅行関連ツールを統合するサンドボックス環境を構築します。
エージェントはこれらのツールを組み合わせることで,最も実用的な旅行計画問題の解決が可能になる。
さらに,TravelBench上で複数のLLMを評価し,その挙動と性能を詳細に解析する。
TravelBenchは、旅行計画のためのLSMエージェントの研究を進めるために、実用的で再現可能な評価ベンチマークを提供する。
内部レビューの後、コードとデータが利用可能になる。
関連論文リスト
- TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文 参考訳(メタデータ) (2025-10-06T07:30:25Z) - VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。
VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。
総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-30T16:33:49Z) - DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents [26.786926580388325]
旅行計画(TP)エージェントは、最近、旅行計画生成のための外部ツールやリソースと対話するための新しいビルディングブロックとして機能している。
本稿では,自律走行計画エージェントを構築するためのエージェント強化学習フレームワークであるDeepTravelを提案する。
論文 参考訳(メタデータ) (2025-09-26T04:03:52Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。
ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。
また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T14:21:33Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。