論文の概要: TravelEval: A Comprehensive Benchmarking Framework for Evaluating LLM-Powered Travel Planning Agents
- arxiv url: http://arxiv.org/abs/2606.01046v1
- Date: Sun, 31 May 2026 06:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.167212
- Title: TravelEval: A Comprehensive Benchmarking Framework for Evaluating LLM-Powered Travel Planning Agents
- Title(参考訳): TravelEval: LLMによる旅行計画エージェント評価のための総合的なベンチマークフレームワーク
- Authors: Weiyi Chen, Shuaixiong Wang, Ziyun Gao, Kaichun Hu, Wangze Ni, Shimin Di, Chen Jason Zhang, Lei Chen,
- Abstract要約: 本研究では,大規模言語旅行モデルを評価するための,現実的で包括的なベンチマークであるTravelEvalを紹介する。
TravelEval 1) 正確性, コンプライアンス, 時間性, 空間性, 経済性, 実用性といった面から計画を評価する新しい6次元評価フレームワーク。
- 参考スコア(独自算出の注目度): 16.732203115366584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of Large Language Models (LLMs) has significantly improved travel planning applications, yet evaluating such models is limited by existing benchmarks' limitations: 1) overemphasis on constraint compliance, neglecting multi-dimensional qualities like spatio-temporal cost; 2) datasets lacking real-world authenticity and coverage in key areas (e.g., lodging, transport); and 3) isolated daily plan assessments that miss critical details (e.g., the impact of daily accommodation and visit pacing) needed for entire plan's evaluation. To address this gap, we introduce TravelEval, a realistic and comprehensive benchmark. TravelEval features 1) a novel six-dimensional evaluation framework to holistically assess plans across accuracy, compliance, temporality, spatiality, economy, and utility dimensions; 2) a highly realistic data sandbox with precise accommodation pricing and authentic intercity transportation data; and 3) a simulation-based global evaluation method that emulates complete travel plans with API-integrated geographic information and fine-grained queuing time. Evaluating 12 mainstream approaches with TravelEval reveals several valuable insights, such that LLMs struggle with globally-optimized multi-dimensional planning (especially in spatio-temporal reasoning and budget compliance), and agentic reasoning strategies offer no consistent improvement. Concisely, TravelEval facilitates travel plan evaluation via grounded spatio-temporal emulation and comprehensive metrics, providing a robust foundation for advancing LLM-powered travel planning research and applications.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は、旅行計画アプリケーションを大幅に改善したが、そのようなモデルの評価は、既存のベンチマークの制限によって制限されている。
1) 制約遵守の過度な強調,時空間費用等の多次元的品質の無視
2) 重要領域(例えば、宿泊、輸送)における現実の真正性や網羅性に欠けるデータセット、及び
3) 計画全体の評価には,重要な詳細(例えば,毎日の宿泊施設や訪問スペースの影響)を欠いた日常的計画評価の分離が必要であった。
このギャップに対処するために、現実的で包括的なベンチマークであるTravelEvalを紹介します。
TravelEval の特徴
1 正確性、遵守性、時間性、空間性、経済性及び実用性にまたがる計画を評価するための新しい6次元評価枠組み
2 正確な宿泊料金及び都市間交通データを有する高度に現実的なデータサンドボックス
3)API統合された地理的情報と細粒度待ち時間で完全な旅行計画をエミュレートするシミュレーションに基づくグローバルな評価手法を提案する。
TravelEvalによる12の主流アプローチを評価することは、LLMがグローバルに最適化された多次元計画(特に時空間推論と予算順守)に苦しむことや、エージェント推論戦略が一貫した改善をもたらすことなど、いくつかの貴重な洞察を浮き彫りにしている。
正確には、TravelEvalは時空間エミュレーションと包括的メトリクスによる旅行計画評価を促進し、LSMによる旅行計画研究と応用を推進するための堅牢な基盤を提供する。
関連論文リスト
- TripScore: Benchmarking and rewarding real-world travel planning with fine-grained evaluation [4.831964966659024]
我々は、詳細な基準を1つの報酬に統一する旅行計画のための総合的なベンチマークを導入する。
我々の評価器は旅行専門家のアノテーション(60.75%)と適度に一致した。
ユーザ意図を一般化するための219のリアルタイムなフリーフォーム要求を含む,4,870の大規模クエリデータセットをリリースする。
論文 参考訳(メタデータ) (2025-10-10T05:22:29Z) - ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning [53.065247112514534]
ATLASは、現実世界の旅行計画タスクにおける制約意識の複雑な性質を扱うために設計された汎用マルチエージェントフレームワークである。
我々はTravelPlannerベンチマークで最先端のパフォーマンスを示し、最終パスレートを23.3%から44.4%に改善した。
論文 参考訳(メタデータ) (2025-09-29T23:23:52Z) - TripTailor: A Real-World Benchmark for Personalized Travel Planning [28.965273870656446]
TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。
このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。
旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
論文 参考訳(メタデータ) (2025-08-02T16:44:02Z) - Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints [39.01715254437105]
本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning [7.841787597078323]
TripCraft は LLM によるパーソナライズされた旅行計画のための,新たなベンチマークを確立している。
パラメータ情報設定は食事スケジューリングを著しく向上させ、7日間のシナリオでは時間的食事スコアが61%から80%に向上する。
論文 参考訳(メタデータ) (2025-02-27T20:33:28Z) - ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning [38.44879526364259]
emph ChinaTravelは、中国旅行の真の要件に基づいた初のオープンエンドベンチマークです。
本研究では,拡張性評価,実現可能性,制約満足度,嗜好比較を網羅する,構成的に一般化可能なドメイン固有言語を設計する。
経験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、人間のクエリに対する37.0%の制約満足度を達成する。
論文 参考訳(メタデータ) (2024-12-18T10:10:12Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。