論文の概要: TravelBench: A Real-World Benchmark for Multi-Turn and Tool-Augmented Travel Planning
- arxiv url: http://arxiv.org/abs/2512.22673v1
- Date: Sat, 27 Dec 2025 18:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.172332
- Title: TravelBench: A Real-World Benchmark for Multi-Turn and Tool-Augmented Travel Planning
- Title(参考訳): TravelBench: マルチTurnとツール拡張トラベル計画のための実世界のベンチマーク
- Authors: Xiang Cheng, Yulan Hu, Xiangwen Zhang, Lu Xu, Zheng Pan, Xin Li, Yong Liu,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、計画とツールの使用において強力な能力を示している。
旅行プランニングは、これらの機能に対する自然かつ高インパクトなテストベッドを提供する。
本稿では,マルチターンインタラクションとツール利用を特徴とする実世界の旅行計画ベンチマークであるTravelBenchを紹介する。
- 参考スコア(独自算出の注目度): 22.3041021610283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have demonstrated strong capabilities in planning and tool use. Travel planning provides a natural and high-impact testbed for these capabilities, as it requires multi-step reasoning, iterative preference elicitation through interaction, and calls to external tools under evolving constraints. Prior work has studied LLMs on travel-planning tasks, but existing settings are limited in domain coverage and multi-turn interaction. As a result, they cannot support dynamic user-agent interaction and therefore fail to comprehensively assess agent capabilities. In this paper, we introduce TravelBench, a real-world travel-planning benchmark featuring multi-turn interaction and tool use. We collect user requests from real-world scenarios and construct three subsets-multi-turn, single-turn, and unsolvable-to evaluate different aspects of agent performance. For stable and reproducible evaluation, we build a controlled sandbox environment with 10 travel-domain tools, providing deterministic tool outputs for reliable reasoning. We evaluate multiple LLMs on TravelBench and conduct an analysis of their behaviors and performance. TravelBench offers a practical and reproducible benchmark for advancing LLM agents in travel planning.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、計画とツールの使用において強力な能力を示している。
トラベルプランニングは、これらの機能に対して自然でインパクトの高いテストベッドを提供する。多段階の推論、インタラクションによる反復的な選好の誘導、進化する制約の下で外部ツールを呼び出すことが必要である。
これまで、旅行計画タスクのLLMについて研究してきたが、既存の設定はドメインカバレッジとマルチターンインタラクションに限られていた。
結果として、動的ユーザエージェントのインタラクションをサポートできないため、エージェント機能を包括的に評価することができない。
本稿では,マルチターンインタラクションとツール利用を特徴とする実世界の旅行計画ベンチマークであるTravelBenchを紹介する。
実世界のシナリオからユーザリクエストを収集し、エージェントのパフォーマンスの異なる側面を評価するために、マルチターン、シングルターン、未解決の3つのサブセットを構築します。
安定かつ再現可能な評価を行うため、10の旅行ドメインツールによる制御されたサンドボックス環境を構築し、信頼性の高い推論のための決定論的ツール出力を提供する。
本研究では,TravelBench 上で複数の LLM を評価し,その挙動と性能を解析する。
TravelBenchは、旅行計画におけるLLMエージェントの進歩のための実用的で再現可能なベンチマークを提供する。
関連論文リスト
- MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios [34.570930885283694]
我々は,大規模言語モデル (LLM) に基づく経路計画エージェントを実世界の移動シナリオで評価するためのベンチマークである MobilityBenchを紹介する。
MobilityBenchは、Amapから収集された大規模で匿名化された実際のユーザクエリから構築されている。
本稿では,結果の妥当性を主眼とした多次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-26T05:39:38Z) - Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use [74.47746287181383]
大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
論文 参考訳(メタデータ) (2025-10-06T07:30:25Z) - VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。
VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。
総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-30T16:33:49Z) - DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents [26.786926580388325]
旅行計画(TP)エージェントは、最近、旅行計画生成のための外部ツールやリソースと対話するための新しいビルディングブロックとして機能している。
本稿では,自律走行計画エージェントを構築するためのエージェント強化学習フレームワークであるDeepTravelを提案する。
論文 参考訳(メタデータ) (2025-09-26T04:03:52Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。
ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。
また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T14:21:33Z) - ACEBench: Who Wins the Match Point in Tool Usage? [86.79310356779108]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。