論文の概要: Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints
- arxiv url: http://arxiv.org/abs/2506.12421v2
- Date: Sun, 12 Oct 2025 13:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.833043
- Title: Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints
- Title(参考訳): 多面的制約を考慮した実世界のLLM計画のための広域思考とシミュレーションに基づく評価
- Authors: Dongjie Yang, Chengqiang Lu, Qimeng Wang, Xinbei Ma, Yan Gao, Yao Hu, Hai Zhao,
- Abstract要約: 本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
- 参考スコア(独自算出の注目度): 39.01715254437105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike reasoning, which often entails a deep sequence of deductive steps, complex real-world planning is characterized by the need to synthesize a broad spectrum of parallel and potentially conflicting information and constraints. For example, in travel planning scenarios, it requires the integration of diverse real-world information and user preferences. While LLMs show promise, existing methods with long-horizon thinking struggle with handling multifaceted constraints, leading to suboptimal solutions. Motivated by the challenges of real-world travel planning, this paper introduces the Multiple Aspects of Planning (MAoP), empowering LLMs with "wide-horizon thinking" to solve planning problems with multifaceted constraints. Instead of direct planning, MAoP leverages the strategist to conduct pre-planning from various aspects and provide the planning blueprint for planners, enabling strong inference-time scalability by scaling aspects to consider various constraints. In addition, existing benchmarks for multi-constraint planning are flawed because they assess constraints in isolation, ignoring causal dependencies within the constraints, e.g, travel planning, where past activities dictate future itinerary. To address this, we propose Travel-Sim, an agent-based benchmark assessing plans via real-world simulation, thereby inherently resolving these causal dependencies. This paper advances LLM capabilities in complex planning and offers novel insights for evaluating sophisticated scenarios through simulation.
- Abstract(参考訳): 推論とは違い、複雑な実世界の計画には、幅広い並列スペクトルと潜在的に矛盾する情報や制約を合成する必要があることが特徴である。
例えば、旅行計画のシナリオでは、多様な現実世界の情報とユーザの好みを統合する必要がある。
LLMは有望である一方で、多面的制約に対処する長期的思考を伴う既存の手法は、最適ではない解をもたらす。
実世界の旅行計画の課題に触発され,多面的制約による計画問題の解決のために,多面的計画(MAoP)を導入し,LLMに「全体水平思考」を付与する。
直接計画する代わりに、MAoPはストラテジストを利用して様々な側面から事前計画を行い、プランナーのための計画青写真を提供する。
さらに、既存のマルチ制約計画のベンチマークは、制約の制約を評価し、例えば、過去の活動が将来のスケジュールを規定する旅行計画などの制約内の因果依存性を無視しているため、欠陥がある。
そこで本研究では,実世界のシミュレーションによる計画評価を行うエージェントベースベンチマークであるTravel-Simを提案する。
本稿では,複雑な計画におけるLLM機能の向上と,シミュレーションによる高度なシナリオ評価のための新たな洞察を提供する。
関連論文リスト
- TripTailor: A Real-World Benchmark for Personalized Travel Planning [28.965273870656446]
TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。
このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。
旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
論文 参考訳(メタデータ) (2025-08-02T16:44:02Z) - Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。
Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。
We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文 参考訳(メタデータ) (2025-03-12T17:40:52Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - Smart Language Agents in Real-World Planning [0.0]
大規模言語モデル(LLM)の旅行計画能力の向上を目指す。
LLM自動プロンプトと「Human-in-the-loop」を組み合わせた半自動プロンプト生成フレームワークを提案する。
以上の結果から,LLM自動プロンプトには制限があり,"Human-in-the-loop"は1回のイテレーションで139%の大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-29T03:00:30Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - What's the Plan? Evaluating and Developing Planning-Aware Techniques for Language Models [7.216683826556268]
大きな言語モデル(LLM)は、計画機能を必要とするアプリケーションにますます使われています。
我々は,新しいハイブリッド・メソドであるSimPlanを紹介し,その性能を新たな挑戦的な設定で評価する。
論文 参考訳(メタデータ) (2024-02-18T07:42:49Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。