論文の概要: TripTailor: A Real-World Benchmark for Personalized Travel Planning
- arxiv url: http://arxiv.org/abs/2508.01432v1
- Date: Sat, 02 Aug 2025 16:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.879096
- Title: TripTailor: A Real-World Benchmark for Personalized Travel Planning
- Title(参考訳): TripTailor: 個人化された旅行計画のための実世界のベンチマーク
- Authors: Yuanzhe Shen, Kaimin Wang, Changze Lv, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。
このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。
旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
- 参考スコア(独自算出の注目度): 28.965273870656446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continuous evolution and enhanced reasoning capabilities of large language models (LLMs) have elevated their role in complex tasks, notably in travel planning, where demand for personalized, high-quality itineraries is rising. However, current benchmarks often rely on unrealistic simulated data, failing to reflect the differences between LLM-generated and real-world itineraries. Existing evaluation metrics, which primarily emphasize constraints, fall short of providing a comprehensive assessment of the overall quality of travel plans. To address these limitations, we introduce TripTailor, a benchmark designed specifically for personalized travel planning in real-world scenarios. This dataset features an extensive collection of over 500,000 real-world points of interest (POIs) and nearly 4,000 diverse travel itineraries, complete with detailed information, providing a more authentic evaluation framework. Experiments show that fewer than 10\% of the itineraries generated by the latest state-of-the-art LLMs achieve human-level performance. Moreover, we identify several critical challenges in travel planning, including the feasibility, rationality, and personalized customization of the proposed solutions. We hope that TripTailor will drive the development of travel planning agents capable of understanding and meeting user needs while generating practical itineraries. Our code and dataset are available at https://github.com/swxkfm/TripTailor
- Abstract(参考訳): 大規模言語モデル(LLM)の継続的な進化と推論能力の強化は、特に旅行計画における複雑なタスクにおける役割を高めている。
しかしながら、現在のベンチマークはしばしば非現実的なシミュレーションデータに依存しており、LLM生成と現実世界のイテレーションの違いを反映していない。
既存の評価指標は、主に制約を強調しており、旅行計画の全体的な品質に関する包括的な評価を提供していない。
これらの制限に対処するため、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークであるTripTailorを紹介した。
このデータセットは、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーからなる広範囲なコレクションを備え、詳細な情報を提供し、より真正な評価フレームワークを提供する。
実験の結果,最新のLLMが生成するイテレーションの10%未満が人間レベルのパフォーマンスを実現していることがわかった。
さらに,提案手法の実現可能性,合理性,パーソナライズされたカスタマイズなど,旅行計画におけるいくつかの重要な課題を明らかにした。
我々は,TripTailorが,ユーザニーズを理解し,満足する旅行計画エージェントの開発を促進するとともに,実践的な旅程を創出することを期待している。
私たちのコードとデータセットはhttps://github.com/swxkfm/TripTailorで公開されています。
関連論文リスト
- Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM [58.50687282180444]
旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。
我々はこれをL3$プランニング問題として定式化し、長いコンテキスト、長い命令、長い出力を強調する。
計画の多面的側面 (MAoP) を導入し, LLM が複雑な計画問題の解決のために広義の思考を行えるようにした。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning [7.841787597078323]
TripCraft は LLM によるパーソナライズされた旅行計画のための,新たなベンチマークを確立している。
パラメータ情報設定は食事スケジューリングを著しく向上させ、7日間のシナリオでは時間的食事スコアが61%から80%に向上する。
論文 参考訳(メタデータ) (2025-02-27T20:33:28Z) - ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning [49.37899519520761]
emph ChinaTravelは、中国旅行の真の要件に基づいた初のオープンエンドベンチマークです。
本研究では,拡張性評価,実現可能性,制約満足度,嗜好比較を網羅する,構成的に一般化可能なドメイン固有言語を設計する。
経験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、人間のクエリに対する37.0%の制約満足度を達成する。
論文 参考訳(メタデータ) (2024-12-18T10:10:12Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - To the Globe (TTG): Towards Language-Driven Guaranteed Travel Planning [54.9340658451129]
To the Globe(TTG)は、ユーザから自然言語要求を受け取り、それをシンボリックフォームに変換するリアルタイムのデモシステムである。
システム全体の応答に5秒を要し、保証されたイテナリでユーザ要求に応答する。
ユーザによる評価では、TTGは生成した繰り返しで35-40%のネットプロモータースコア(NPS)を一貫して達成する。
論文 参考訳(メタデータ) (2024-10-21T19:30:05Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。
我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。
北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T14:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。