論文の概要: DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping
- arxiv url: http://arxiv.org/abs/2510.12979v1
- Date: Tue, 14 Oct 2025 20:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.417016
- Title: DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping
- Title(参考訳): DeepPlanner: アドバンテージシェイピングによるディープリサーチエージェントのスケーリング計画能力
- Authors: Wei Fan, Wenlin Yao, Zheng Li, Feng Yao, Xin Liu, Liang Qiu, Qingyu Yin, Yangqiu Song, Bing Yin,
- Abstract要約: 我々は、ディープリサーチエージェントの計画能力を効果的に向上するエンドツーエンドのRLフレームワークであるDeepPlannerを提案する。
提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作るとともに,計画集約ロールアウトに対するサンプルレベルの優位性を選択的に向上させる。
- 参考スコア(独自算出の注目度): 74.34061104176554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) augmented with multi-step reasoning and action generation abilities have shown promise in leveraging external tools to tackle complex tasks that require long-horizon planning. However, existing approaches either rely on implicit planning in the reasoning stage or introduce explicit planners without systematically addressing how to optimize the planning stage. As evidence, we observe that under vanilla reinforcement learning (RL), planning tokens exhibit significantly higher entropy than other action tokens, revealing uncertain decision points that remain under-optimized. To address this, we propose DeepPlanner, an end-to-end RL framework that effectively enhances the planning capabilities of deep research agents. Our approach shapes token-level advantage with an entropy-based term to allocate larger updates to high entropy tokens, and selectively upweights sample-level advantages for planning-intensive rollouts. Extensive experiments across seven deep research benchmarks demonstrate that DeepPlanner improves planning quality and achieves state-of-the-art results under a substantially lower training budget.
- Abstract(参考訳): 多段階推論とアクション生成能力を備えた大規模言語モデル(LLM)は、長期計画を必要とする複雑なタスクに対処するために外部ツールを活用することを約束している。
しかし、既存のアプローチは、推論段階で暗黙の計画に依存するか、計画段階を最適化する方法を体系的に解決することなく、明示的なプランナーを導入するかのいずれかである。
証拠として,バニラ強化学習(RL)の下では,計画トークンは他のアクショントークンよりも有意に高いエントロピーを示し,不確実な決定ポイントが過度に最適化されていないことが明らかとなった。
そこで本研究では,ディープリサーチエージェントの計画能力を効果的に向上するエンド・ツー・エンドのRLフレームワークであるDeepPlannerを提案する。
提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作り,プランニング集約ロールアウトにおけるサンプルレベルの優位性を選択的に向上させる。
7つのディープリサーチベンチマークにわたる大規模な実験は、DeepPlannerが計画品質を改善し、トレーニング予算が大幅に低い状態で最先端の結果を達成することを示した。
関連論文リスト
- DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints [25.987776928014707]
本稿では,実用的長期エージェント計画のベンチマークであるDeepPlanningを紹介する。
多日間の旅行計画と、積極的情報取得、局所的制約推論、グローバルな制約付き最適化を必要とするマルチプロダクトショッピングタスクが特徴である。
論文 参考訳(メタデータ) (2026-01-26T04:43:49Z) - PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization [58.465778756331574]
本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。
2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。
実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-06-02T09:35:07Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks [36.63527489464188]
Plan-and-Actは、大規模言語モデル(LLM)に明示的なプランニングを組み込んだフレームワークである。
Plan-and-Actは、ユーザ目標を達成するための構造化された高レベルのプランを生成するPlannerモデルと、これらのプランを環境固有のアクションに変換するExecutorモデルで構成される。
We present a state-of-the-art 57.58% success rate on the WebArena-Lite benchmark and a text-only state-of-the-art 81.36% success rate on WebVoyager。
論文 参考訳(メタデータ) (2025-03-12T17:40:52Z) - DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
本稿では,連続距離推定を離散的到達性チェックに置き換え,サブゴールの実現可能性を評価する手法を提案する。
25室のナビゲーション環境での実験では、100%の成功率を示している。
この方法は運動量に基づく制御タスクにも一般化され、再計画には$log N$ステップしか必要としない。
論文 参考訳(メタデータ) (2025-02-04T03:05:55Z) - Learning to Plan with Personalized Preferences [16.65506804881317]
PbP(Preference-based Planning)ベンチマークは、原子のアクションから複雑なシーケンスにまたがる数百のさまざまな好みを具現化したベンチマークである。
我々のSOTA手法の評価では, シンボルベースのアプローチはスケーラビリティを約束するが, パーソナライズされた好みを満たす計画の生成と実行には大きな課題が残っている。
これらの知見は、適応計画のための貴重な抽象化レイヤとして、優先誘導計画の生成と実行に関する新たな研究の方向性を定めている。
論文 参考訳(メタデータ) (2025-02-02T17:16:25Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。
提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Probabilistic contingent planning based on HTN for high-quality plans [8.23558342809427]
本稿では,HTNプランナとして High-Quality Contingent Planner (HQCP) を提案する。
HQCPは、部分的に観測可能な環境で高品質な計画を生成する。
HTN計画の形式は部分的な可観測性に拡張され、コストについて評価される。
論文 参考訳(メタデータ) (2023-08-14T03:55:14Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。