論文の概要: TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning
- arxiv url: http://arxiv.org/abs/2502.20508v1
- Date: Thu, 27 Feb 2025 20:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:59.976462
- Title: TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning
- Title(参考訳): TripCraft: 時空間微粒旅行計画のベンチマーク
- Authors: Soumyabrata Chaudhuri, Pranav Purkar, Ritwik Raghav, Shubhojit Mallick, Manish Gupta, Abhik Jana, Shreya Ghosh,
- Abstract要約: TripCraft は LLM によるパーソナライズされた旅行計画のための,新たなベンチマークを確立している。
パラメータ情報設定は食事スケジューリングを著しく向上させ、7日間のシナリオでは時間的食事スコアが61%から80%に向上する。
- 参考スコア(独自算出の注目度): 7.841787597078323
- License:
- Abstract: Recent advancements in probing Large Language Models (LLMs) have explored their latent potential as personalized travel planning agents, yet existing benchmarks remain limited in real world applicability. Existing datasets, such as TravelPlanner and TravelPlanner+, suffer from semi synthetic data reliance, spatial inconsistencies, and a lack of key travel constraints, making them inadequate for practical itinerary generation. To address these gaps, we introduce TripCraft, a spatiotemporally coherent travel planning dataset that integrates real world constraints, including public transit schedules, event availability, diverse attraction categories, and user personas for enhanced personalization. To evaluate LLM generated plans beyond existing binary validation methods, we propose five continuous evaluation metrics, namely Temporal Meal Score, Temporal Attraction Score, Spatial Score, Ordering Score, and Persona Score which assess itinerary quality across multiple dimensions. Our parameter informed setting significantly enhances meal scheduling, improving the Temporal Meal Score from 61% to 80% in a 7 day scenario. TripCraft establishes a new benchmark for LLM driven personalized travel planning, offering a more realistic, constraint aware framework for itinerary generation. Dataset and Codebase will be made publicly available upon acceptance.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、パーソナライズされた旅行計画エージェントとしての潜在可能性を探っている。
既存のデータセットであるTravelPlannerやTravelPlanner+は、半合成データ依存、空間的不整合、キートラベル制約の欠如に悩まされており、実用的な反復生成には不十分である。
これらのギャップに対処するために,公共交通機関のスケジュール,イベントの可用性,多様なアトラクションカテゴリ,パーソナライゼーション向上のためのユーザペルソナなど,現実の制約を統合する,時空間的に一貫性のある旅行計画データセットであるTripCraftを紹介した。
LLMの生成したプランを既存のバイナリ検証手法を超えて評価するために,複数の次元にまたがる反復品質を評価する,テンポラルミールスコア,テンポラルアトラクションスコア,空間スコア,秩序スコア,ペルソナスコアの5つの連続評価指標を提案する。
パラメータ情報設定は食事スケジューリングを著しく向上させ、7日間のシナリオでは時間的食事スコアが61%から80%に向上する。
TripCraft は LLM によるパーソナライズされた旅行計画のための,新たなベンチマークを確立している。
DatasetとCodebaseは、受理時に公開される。
関連論文リスト
- ChinaTravel: A Real-World Benchmark for Language Agents in Chinese Travel Planning [50.7898120693695]
ChinaTravelは、中国の旅行計画シナリオに特化して設計されたベンチマークである。
質問紙から旅行要求を収集し,構成的に一般化可能なドメイン特化言語を提案する。
実証研究により、旅行計画における神経象徴薬の可能性を明らかにし、27.9%の制約満足度を達成した。
我々は、オープン言語推論や未確認概念構成など、現実世界の旅行計画展開における重要な課題を特定します。
論文 参考訳(メタデータ) (2024-12-18T10:10:12Z) - To the Globe (TTG): Towards Language-Driven Guaranteed Travel Planning [54.9340658451129]
To the Globe(TTG)は、ユーザから自然言語要求を受け取り、それをシンボリックフォームに変換するリアルタイムのデモシステムである。
システム全体の応答に5秒を要し、保証されたイテナリでユーザ要求に応答する。
ユーザによる評価では、TTGは生成した繰り返しで35-40%のネットプロモータースコア(NPS)を一貫して達成する。
論文 参考訳(メタデータ) (2024-10-21T19:30:05Z) - Smart Language Agents in Real-World Planning [0.0]
大規模言語モデル(LLM)の旅行計画能力の向上を目指す。
LLM自動プロンプトと「Human-in-the-loop」を組み合わせた半自動プロンプト生成フレームワークを提案する。
以上の結果から,LLM自動プロンプトには制限があり,"Human-in-the-loop"は1回のイテレーションで139%の大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-29T03:00:30Z) - Reconsidering utility: unveiling the limitations of synthetic mobility data generation algorithms in real-life scenarios [49.1574468325115]
実世界の応用性の観点から,5つの最先端合成手法の有用性を評価した。
我々は、GPS追跡タクシーのような細粒度都市の動きを符号化するいわゆる旅行データに焦点を当てる。
あるモデルは妥当な時間内にデータを生成することができず、別のモデルはマップマッチングの要件を満たすためにあまりに多くのジャンプを生成する。
論文 参考訳(メタデータ) (2024-07-03T16:08:05Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - NATURAL PLAN: Benchmarking LLMs on Natural Language Planning [109.73382347588417]
本稿では,3つのタスク – トリップ計画,ミーティング計画,カレンダースケジューリング – を含む,自然言語の現実的な計画ベンチマークであるNATURAL PLANを紹介する。
我々は、Google Flights、Google Maps、Google Calendarなどのツールからの出力を、モデルに対するコンテキストとして提供することによって、タスクに関する完全な情報を備えたLCMの計画能力に焦点をあてる。
論文 参考訳(メタデータ) (2024-06-06T21:27:35Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - Differentiable Spatial Planning using Transformers [87.90709874369192]
本研究では、長距離空間依存を計画して行動を生成する障害マップを与えられた空間計画変換器(SPT)を提案する。
エージェントが地上の真理マップを知らない環境では、エンド・ツー・エンドのフレームワークで事前訓練されたSPTを利用する。
SPTは、操作タスクとナビゲーションタスクの両方のすべてのセットアップにおいて、最先端の差別化可能なプランナーよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T06:48:16Z) - nuPlan: A closed-loop ML-based planning benchmark for autonomous
vehicles [7.212066200339641]
我々は,自動運転のための世界初のクローズドループMLベースの計画ベンチマークを提案する。
われわれは、米国とアジアの4都市から、1500hの人間の運転データによる高品質なデータセットを提供する。
我々は、NeurIPS 2021でデータセットをリリースし、2022年初頭からベンチマークの課題を整理する予定です。
論文 参考訳(メタデータ) (2021-06-22T14:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。