論文の概要: Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM
- arxiv url: http://arxiv.org/abs/2506.12421v1
- Date: Sat, 14 Jun 2025 09:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.190492
- Title: Plan Your Travel and Travel with Your Plan: Wide-Horizon Planning and Evaluation via LLM
- Title(参考訳): 旅行計画と旅行計画: LLMによる広域計画と評価
- Authors: Dongjie Yang, Chengqiang Lu, Qimeng Wang, Xinbei Ma, Yan Gao, Yao Hu, Hai Zhao,
- Abstract要約: 旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。
我々はこれをL3$プランニング問題として定式化し、長いコンテキスト、長い命令、長い出力を強調する。
計画の多面的側面 (MAoP) を導入し, LLM が複雑な計画問題の解決のために広義の思考を行えるようにした。
- 参考スコア(独自算出の注目度): 58.50687282180444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Travel planning is a complex task requiring the integration of diverse real-world information and user preferences. While LLMs show promise, existing methods with long-horizon thinking struggle with handling multifaceted constraints and preferences in the context, leading to suboptimal itineraries. We formulate this as an $L^3$ planning problem, emphasizing long context, long instruction, and long output. To tackle this, we introduce Multiple Aspects of Planning (MAoP), enabling LLMs to conduct wide-horizon thinking to solve complex planning problems. Instead of direct planning, MAoP leverages the strategist to conduct pre-planning from various aspects and provide the planning blueprint for planning models, enabling strong inference-time scalability for better performance. In addition, current benchmarks overlook travel's dynamic nature, where past events impact subsequent journeys, failing to reflect real-world feasibility. To address this, we propose Travel-Sim, an agent-based benchmark assessing plans via real-world travel simulation. This work advances LLM capabilities in complex planning and offers novel insights for evaluating sophisticated scenarios through agent-based simulation.
- Abstract(参考訳): 旅行計画は、多様な現実世界の情報とユーザの好みを統合する必要がある複雑な作業である。
LLMは将来性を示すが、多面的制約や嗜好を扱うための長期的思考を伴う既存の手法は、最適でない反復に繋がる。
我々はこれをL^3$計画問題として定式化し、長い文脈、長い命令、長い出力を強調する。
そこで我々は,多面的計画的側面(MAoP)を導入し,LLMが複雑な計画問題の解決のために広義の思考を行えるようにした。
直接計画する代わりに、MAoPはストラテジストを活用して、さまざまな側面から事前計画を行い、計画モデルのための計画青写真を提供する。
加えて、現在のベンチマークでは、過去の出来事がその後の旅に影響を与える旅行のダイナミックな性質を見落としており、実際の実現可能性の反映に失敗している。
そこで本研究では,実世界の旅行シミュレーションによる計画評価を行うエージェントベースベンチマークであるTravel-Simを提案する。
この研究は、複雑な計画においてLLMの能力を向上し、エージェントベースのシミュレーションを通じて洗練されたシナリオを評価するための新しい洞察を提供する。
関連論文リスト
- Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。
Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。
We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文 参考訳(メタデータ) (2025-03-12T17:40:52Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - What's the Plan? Evaluating and Developing Planning-Aware Techniques for Language Models [7.216683826556268]
大きな言語モデル(LLM)は、計画機能を必要とするアプリケーションにますます使われています。
我々は,新しいハイブリッド・メソドであるSimPlanを紹介し,その性能を新たな挑戦的な設定で評価する。
論文 参考訳(メタデータ) (2024-02-18T07:42:49Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。