論文の概要: DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
- arxiv url: http://arxiv.org/abs/2601.18137v1
- Date: Mon, 26 Jan 2026 04:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.679607
- Title: DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
- Title(参考訳): DeepPlanning: 検証可能な制約による長期エージェント計画のベンチマーク
- Authors: Yinger Zhang, Shutong Jiang, Renhao Li, Jianhong Tu, Yang Su, Lianghao Deng, Xudong Guo, Chenxu Lv, Junyang Lin,
- Abstract要約: 本稿では,実用的長期エージェント計画のベンチマークであるDeepPlanningを紹介する。
多日間の旅行計画と、積極的情報取得、局所的制約推論、グローバルな制約付き最適化を必要とするマルチプロダクトショッピングタスクが特徴である。
- 参考スコア(独自算出の注目度): 25.987776928014707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While agent evaluation has shifted toward long-horizon tasks, most benchmarks still emphasize local, step-level reasoning rather than the global constrained optimization (e.g., time and financial budgets) that demands genuine planning ability. Meanwhile, existing LLM planning benchmarks underrepresent the active information gathering and fine-grained local constraints typical of real-world settings. To address this, we introduce DeepPlanning, a challenging benchmark for practical long-horizon agent planning. It features multi-day travel planning and multi-product shopping tasks that require proactive information acquisition, local constrained reasoning, and global constrained optimization. Evaluations on DeepPlanning show that even frontier agentic LLMs struggle with these problems, highlighting the importance of reliable explicit reasoning patterns and parallel tool use for achieving better effectiveness-efficiency trade-offs. Error analysis further points to promising directions for improving agentic LLMs over long planning horizons. We open-source the code and data to support future research.
- Abstract(参考訳): エージェント評価は長期的なタスクに移行しているが、ほとんどのベンチマークでは、真の計画能力を必要とするグローバルな制約付き最適化(例えば、時間と財政の予算)よりも、ローカルでステップレベルの推論を強調している。
一方、既存のLCM計画ベンチマークは、実世界の設定に典型的な、アクティブな情報収集ときめ細かい局所的制約を下記している。
この問題に対処するために、実用的長期エージェント計画のための挑戦的なベンチマークであるDeepPlanningを紹介します。
多日間の旅行計画と、積極的情報取得、局所的制約推論、グローバルな制約付き最適化を必要とするマルチプロダクトショッピングタスクが特徴である。
DeepPlanningの評価によると、フロンティアエージェント LLM でさえこれらの問題に苦慮し、信頼性の高い明示的推論パターンと並列ツールの使用がよりよい有効性と効率のトレードオフを達成する上で重要であることを強調している。
エラー解析はさらに、長期計画地平線上でのエージェントLDMの改善に向けた有望な方向性を示している。
将来の研究を支援するために、コードとデータをオープンソースにしています。
関連論文リスト
- DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping [74.34061104176554]
我々は、ディープリサーチエージェントの計画能力を効果的に向上するエンドツーエンドのRLフレームワークであるDeepPlannerを提案する。
提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作るとともに,計画集約ロールアウトに対するサンプルレベルの優位性を選択的に向上させる。
論文 参考訳(メタデータ) (2025-10-14T20:47:05Z) - ParaCook: On Time-Efficient Planning for Multi-Agent Systems [62.471032881396496]
大規模言語モデル(LLM)は、長期の現実世界のタスクを計画するための強力な推論能力を示す。
時間効率の協調計画のためのベンチマークであるParaCookを紹介する。
論文 参考訳(メタデータ) (2025-10-13T16:47:07Z) - Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints [39.01715254437105]
本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization [58.465778756331574]
本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。
2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。
実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-06-02T09:35:07Z) - Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。
Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。
We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文 参考訳(メタデータ) (2025-03-12T17:40:52Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。
提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。