論文の概要: TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning
- arxiv url: http://arxiv.org/abs/2512.22673v2
- Date: Mon, 05 Jan 2026 13:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.628762
- Title: TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning
- Title(参考訳): TravelBench: マルチTurnとツールを使った旅行計画のためのより広範な実世界のベンチマーク
- Authors: Xiang Cheng, Yulan Hu, Xiangwen Zhang, Lu Xu, Zheng Pan, Xin Li, Yong Liu,
- Abstract要約: 旅行計画は、大規模言語モデル(LLM)計画とツール使用能力をテストするための自然な現実的なタスクである。
TravelBenchは、完全な現実世界の旅行計画のベンチマークである。
- 参考スコア(独自算出の注目度): 22.3041021610283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Travel planning is a natural real-world task to test large language models (LLMs) planning and tool-use abilities. Although prior work has studied LLM performance on travel planning, existing settings still differ from real-world needs, mainly due to limited domain coverage, insufficient modeling of users' implicit preferences in multi-turn conversations, and a lack of clear evaluation of agents' capability boundaries. To mitigate these gaps, we propose \textbf{TravelBench}, a benchmark for fully real-world travel planning. We collect user queries, user profile and tools from real scenarios, and construct three subtasks-Single-Turn, Multi-Turn, and Unsolvable-to evaluate agent's three core capabilities in real settings: (1) solving problems autonomously, (2) interacting with users over multiple turns to refine requirements, and (3) recognizing the limits of own abilities. To enable stable tool invocation and reproducible evaluation, we cache real tool-call results and build a sandbox environment that integrates ten travel-related tools. Agents can combine these tools to solve most practical travel planning problems, and our systematic verification demonstrates the stability of the proposed benchmark. We further evaluate multiple LLMs on TravelBench and conduct an in-depth analysis of their behaviors and performance. TravelBench provides a practical and reproducible evaluation benchmark to advance research on LLM agents for travel planning.\footnote{Our code and data will be available after internal review.
- Abstract(参考訳): 旅行計画は、大規模言語モデル(LLM)計画とツール使用能力をテストするための自然な現実的なタスクである。
これまでの研究では、旅行計画におけるLLMの性能について研究されてきたが、既存の設定は、ドメインカバレッジの制限、マルチターン会話におけるユーザの暗黙の好みのモデリングの不十分、エージェントの能力境界の明確な評価の欠如など、現実世界のニーズとは相変わらず異なる。
これらのギャップを軽減するために,実世界の旅行計画のベンチマークであるtextbf{TravelBench}を提案する。
我々は,実際のシナリオからユーザクエリ,ユーザプロファイル,ツールを収集し,エージェントの3つのコア機能を評価するための3つのサブタスク(Single-Turn, Multi-Turn, Unsolvable-to)を構築する。
安定したツール呼び出しと再現可能な評価を可能にするため、実際のツールコール結果をキャッシュし、10つの旅行関連ツールを統合するサンドボックス環境を構築します。
エージェントはこれらのツールを組み合わせることで,最も実用的な旅行計画問題の解決が可能になる。
さらに,TravelBench上で複数のLLMを評価し,その挙動と性能を詳細に解析する。
TravelBenchは、旅行計画のためのLSMエージェントの研究を進めるために、実用的で再現可能な評価ベンチマークを提供する。
内部レビューの後、コードとデータが利用可能になる。
関連論文リスト
- MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios [34.570930885283694]
我々は,大規模言語モデル (LLM) に基づく経路計画エージェントを実世界の移動シナリオで評価するためのベンチマークである MobilityBenchを紹介する。
MobilityBenchは、Amapから収集された大規模で匿名化された実際のユーザクエリから構築されている。
本稿では,結果の妥当性を主眼とした多次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-26T05:39:38Z) - Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文 参考訳(メタデータ) (2025-10-06T07:30:25Z) - VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。
VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。
総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-30T16:33:49Z) - DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents [26.786926580388325]
旅行計画(TP)エージェントは、最近、旅行計画生成のための外部ツールやリソースと対話するための新しいビルディングブロックとして機能している。
本稿では,自律走行計画エージェントを構築するためのエージェント強化学習フレームワークであるDeepTravelを提案する。
論文 参考訳(メタデータ) (2025-09-26T04:03:52Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。
ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。
また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T14:21:33Z) - ACEBench: Who Wins the Match Point in Tool Usage? [86.79310356779108]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。