論文の概要: RETAIL: Towards Real-world Travel Planning for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.15335v1
- Date: Thu, 21 Aug 2025 08:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.233428
- Title: RETAIL: Towards Real-world Travel Planning for Large Language Models
- Title(参考訳): 大規模言語モデルのための実世界旅行計画に向けたRETAIL
- Authors: Bin Deng, Yizhe Feng, Zeming Liu, Qing Wei, Xiangrong Zhu, Shuai Chen, Yuanfang Guo, Yunhong Wang,
- Abstract要約: 明示的なクエリをカバーしながら、暗黙的なクエリの意思決定をサポートする新しいデータセット textbfRETAIL を提案する。
また、環境意識が現実のシナリオで計画の実現性を確保すると同時に、オールインワンの旅行計画に詳細なPOI情報を組み込むことも可能である。
実験の結果,最強の既存モデルでさえ11.0%のパス率しか達成していないことが明らかとなった。
- 参考スコア(独自算出の注目度): 36.75531019697594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models have enhanced automated travel planning abilities, current systems remain misaligned with real-world scenarios. First, they assume users provide explicit queries, while in reality requirements are often implicit. Second, existing solutions ignore diverse environmental factors and user preferences, limiting the feasibility of plans. Third, systems can only generate plans with basic POI arrangements, failing to provide all-in-one plans with rich details. To mitigate these challenges, we construct a novel dataset \textbf{RETAIL}, which supports decision-making for implicit queries while covering explicit queries, both with and without revision needs. It also enables environmental awareness to ensure plan feasibility under real-world scenarios, while incorporating detailed POI information for all-in-one travel plans. Furthermore, we propose a topic-guided multi-agent framework, termed TGMA. Our experiments reveal that even the strongest existing model achieves merely a 1.0% pass rate, indicating real-world travel planning remains extremely challenging. In contrast, TGMA demonstrates substantially improved performance 2.72%, offering promising directions for real-world travel planning.
- Abstract(参考訳): 大規模言語モデルでは自動走行計画能力が向上しているが、現在のシステムは現実のシナリオと相容れないままである。
まず、ユーザーは明示的なクエリを提供するが、実際には要求はしばしば暗黙的であると仮定する。
第二に、既存のソリューションは多様な環境要因やユーザの好みを無視し、計画の実現可能性を制限する。
第三に、システムは基本的なPOIアレンジでのみ計画を生成することができ、豊富な詳細をオールインワンプランで提供できない。
これらの課題を軽減するために,暗黙的なクエリの意思決定をサポートする新しいデータセットであるtextbf{RETAIL}を構築した。
また、環境意識が現実のシナリオで計画の実現性を確保すると同時に、オールインワンの旅行計画に詳細なPOI情報を組み込むことも可能である。
さらに,トピック誘導型マルチエージェントフレームワークTGMAを提案する。
実験の結果,最強の既存モデルでさえ11.0%のパス率しか達成していないことが明らかとなった。
対照的に、TGMAは性能2.72%を大幅に改善し、現実の旅行計画に有望な方向性を提供する。
関連論文リスト
- TripTailor: A Real-World Benchmark for Personalized Travel Planning [28.965273870656446]
TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。
このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。
旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
論文 参考訳(メタデータ) (2025-08-02T16:44:02Z) - Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM [58.50687282180444]
旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。
我々はこれをL3$プランニング問題として定式化し、長いコンテキスト、長い命令、長い出力を強調する。
計画の多面的側面 (MAoP) を導入し, LLM が複雑な計画問題の解決のために広義の思考を行えるようにした。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - Large Language Models Can Solve Real-World Planning Rigorously with Formal Verification Tools [12.875270710153021]
大規模言語モデル(LLM)は、複雑なマルチ制約計画問題に対して、直接的に正しい計画を生成するのに苦労する。
複雑な多制約計画問題を形式化し,解決する LLM ベースの計画フレームワークを提案する。
我々のフレームワークは93.9%の成功率を達成し、多様なパラフレーズのプロンプトで有効である。
論文 参考訳(メタデータ) (2024-04-18T04:36:37Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。