論文の概要: TripTide: A Benchmark for Adaptive Travel Planning under Disruptions
- arxiv url: http://arxiv.org/abs/2510.21329v1
- Date: Fri, 24 Oct 2025 10:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.439875
- Title: TripTide: A Benchmark for Adaptive Travel Planning under Disruptions
- Title(参考訳): TripTide: ディスラプション下での適応的な旅行計画のベンチマーク
- Authors: Priyanshu Karmakar, Soumyabrata Chaudhuri, Shubhojit Mallick, Manish Gupta, Abhik Jana, Shreya Ghosh,
- Abstract要約: TripTideは、大規模言語モデルの現実的な破壊の下での修正能力を評価する最初のベンチマークである。
実験の結果,LLMは連続的な一貫性とセマンティック安定性を維持し,空間偏差は短い旅行では大きいが,長い旅行では小さくなることがわかった。
TripTideは、LLMベースの旅行計画における適応性、パーソナライゼーション、レジリエンスを評価するためのベンチマークを確立している。
- 参考スコア(独自算出の注目度): 8.592189274445149
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent efforts like TripCraft and TravelPlanner have advanced the use of Large Language Models ( LLMs) for personalized, constraint aware travel itinerary generation. Yet, real travel often faces disruptions. To address this, we present TripTide, the first benchmark evaluating LLM's ability to revise itineraries under realistic disruptions. TripTide models key dimensions such as disruption severity and traveler tolerance, enabling nuanced assessment of LLM adaptability to events like flight cancellations, weather closures, or overbooked attractions. We conduct a threefold evaluation. First, we introduce automatic metrics including Preservation of Intent (how well the revised plan maintains feasibility and goals), Responsiveness (promptness and appropriateness of disruption handling), and Adaptability (semantic, spatial, and sequential divergence between original and revised plans). Second, we apply an LLM-as-a-judge approach to automatically assess revision quality. Third, we perform manual expert evaluation to verify whether revisions preserve semantic, spatial, sequential, and responsive aspects. Our experiments show that LLMs maintain strong sequential consistency and semantic stability, while spatial deviations are larger for shorter trips but decrease with longer ones, indicating that extended plans encourage better geographic coherence. However, disruption-handling ability declines as plan length increases, highlighting limits in LLM robustness. TripTide establishes a benchmark for evaluating adaptability, personalization, and resilience in LLM-based travel planning under real-world uncertainty.
- Abstract(参考訳): TripCraftやTravelPlannerといった最近の取り組みは、パーソナライズされた制約のある旅行経路生成にLLM(Large Language Models)を使用している。
しかし、実際の旅行はしばしば混乱に直面します。
そこで本研究では, LLM の並列処理能力を評価する最初のベンチマークである TripTide を提案する。
TripTideは、ディスラプションの深刻度や旅行者の耐久性といった重要な次元をモデル化し、フライトキャンセルや天候の閉鎖、過度に予約されたアトラクションといったイベントへのLSMの適応性の評価を可能にする。
私たちは3倍の評価を行います。
まず、Intentの保存(修正計画が実現可能性と目標をどの程度維持するか)、応答性(障害処理の確率と適切性)、適応性(意味的、空間的、および修正計画の逐次的なばらつき)を含む自動メトリクスを導入する。
次に, LLM-as-a-judge 法を適用し, 自動修正品質の評価を行う。
第3に,リビジョンが意味的,空間的,逐次的,応答的な側面を保持するかどうかを検証するために,手動による専門家評価を行う。
実験の結果,LLMは連続的な一貫性とセマンティック安定性を維持し,空間偏差は短い旅行では大きいが,長い旅行では小さくなり,拡張計画により地理的コヒーレンスが向上することが示唆された。
しかし、プラン長が増加するにつれて破壊処理能力は低下し、LSMの堅牢性に限界が浮き彫りになる。
TripTideは、LLMベースの旅行計画における適応性、パーソナライゼーション、レジリエンスを評価するためのベンチマークを確立している。
関連論文リスト
- TripScore: Benchmarking and rewarding real-world travel planning with fine-grained evaluation [4.831964966659024]
我々は、詳細な基準を1つの報酬に統一する旅行計画のための総合的なベンチマークを導入する。
我々の評価器は旅行専門家のアノテーション(60.75%)と適度に一致した。
ユーザ意図を一般化するための219のリアルタイムなフリーフォーム要求を含む,4,870の大規模クエリデータセットをリリースする。
論文 参考訳(メタデータ) (2025-10-10T05:22:29Z) - ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning [53.065247112514534]
ATLASは、現実世界の旅行計画タスクにおける制約意識の複雑な性質を扱うために設計された汎用マルチエージェントフレームワークである。
我々はTravelPlannerベンチマークで最先端のパフォーマンスを示し、最終パスレートを23.3%から44.4%に改善した。
論文 参考訳(メタデータ) (2025-09-29T23:23:52Z) - TripTailor: A Real-World Benchmark for Personalized Travel Planning [28.965273870656446]
TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。
このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。
旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
論文 参考訳(メタデータ) (2025-08-02T16:44:02Z) - Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints [39.01715254437105]
本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning [39.934634038758404]
本稿では,検索用時間RAG対応旅行計画の最初のベンチマークであるTP-RAGを紹介する。
我々のデータセットには、2,348の現実世界の旅行クエリ、85,575の微粒なPOI、18,784の注釈付きPOIが含まれている。
論文 参考訳(メタデータ) (2025-04-11T17:02:40Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning [7.841787597078323]
TripCraft は LLM によるパーソナライズされた旅行計画のための,新たなベンチマークを確立している。
パラメータ情報設定は食事スケジューリングを著しく向上させ、7日間のシナリオでは時間的食事スコアが61%から80%に向上する。
論文 参考訳(メタデータ) (2025-02-27T20:33:28Z) - Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。