論文の概要: Knowing What to Solve Before How: Preplan Empowered LLM Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2605.30245v1
- Date: Thu, 28 May 2026 17:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.574835
- Title: Knowing What to Solve Before How: Preplan Empowered LLM Mathematical Reasoning
- Title(参考訳): 先程の解決法を知る: LLMの数学的推論の事前計画
- Authors: Shaojie Wang, Liang Zhang,
- Abstract要約: PPC (Preplan-Plan-CoT) は, 明示的な問題解決段階である事前計画を導入するフレームワークである。
PPCは40の指標のうち39の指標で最高の結果を得ることができ、最強の基準値である +2.23 と +3.06 で maj@16 と pass@16 を改善した。
- 参考スコア(独自算出の注目度): 5.703029996279753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current plan-based reasoning methods improve large language models (LLMs) by inserting a planning stage before execution, giving rise to the question $\rightarrow$ plan $\rightarrow$ cot paradigm. While effective, a closer examination reveals an inherent paradigm-level gap: both the planning and its execution stages decide how to solve a problem, while the prior question of what to solve; recognizing the problem type, the applicable tools, and the foreseeable pitfalls; remains entirely implicit. To bridge this gap, we propose PPC (Preplan-Plan-CoT), a framework that introduces an explicit problem-understanding stage, the preplan, yielding a new question $\rightarrow$ preplan $\rightarrow$ plan $\rightarrow$ cot paradigm. Realizing this paradigm requires safeguarding the conceptual integrity of preplan at both ends. Specifically, we design a three-stage synthesis pipeline with a spoiler-score detector that filters out leakage and spoiler failures to build clean preplan supervision, and a composite GRPO reward enforces that the generated plan genuinely follows from the preplan. Experiments across four backbones and five mathematical reasoning benchmarks show that PPC achieves the best results on 39 of 40 metrics, improving maj@16 and pass@16 by +2.23 and +3.06 over the strongest baseline without introducing additional inference token overhead.
- Abstract(参考訳): 現在のプランベースの推論手法は、実行前に計画段階を挿入することで、大きな言語モデル(LLM)を改善する。
計画と実行段階の両方が問題を解決する方法を決定する一方で、何が解決すべきかを事前に問う; 問題の種類、適用可能なツール、そして予測可能な落とし穴を認識する; は完全に暗黙のままである。
このギャップを埋めるために、我々はPPC (Preplan-Plan-CoT) を提案し、これは明示的な問題理解段階、事前計画を導入し、新しい疑問$\rightarrow$preplan $\rightarrow$ plan $\rightarrow$ cot パラダイムをもたらす。
このパラダイムを実現するには、両端において事前計画の概念的整合性を保護する必要がある。
具体的には,スポイラーコア検出器を用いた3段階合成パイプラインを設計し,スポイラー故障を除去し,クリーンなプレプラン管理を構築する。
4つのバックボーンと5つの数学的推論ベンチマークによる実験によると、PPCは40のメトリクスのうち39で最高の結果を達成し、推論トークンのオーバーヘッドを追加せずに最強のベースライン上でmaj@16とpass@16を+2.23と+3.06で改善している。
関連論文リスト
- PPA-Plan: Proactive Pitfall Avoidance for Reliable Planning in Long-Context LLM Reasoning [8.87747076871578]
大規模言語モデル(LLM)は、関連する情報がわずかに分散されている長いコンテキストに対する推論に苦慮する。
PPA-Plan(PPA-Plan)は、長期コンテキスト推論のためのプロアクティブな計画戦略であり、計画生成前の障害防止に重点を置いている。
長期コンテキストQAベンチマークの実験では、PPA-Planが生成したプランの実行は、既存のプラン・アンド・エグゼクティブメソッドと直接プロンプトを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-17T04:48:36Z) - Satisficing and Optimal Generalised Planning via Goal Regression (Extended Version) [16.43772461453855]
汎用計画 (GP) とは、関連する計画問題のファミリーを解くプログラムを合成するタスクである。
GPのための新しい単純な手法を導入し、各問題に対する一連のトレーニング問題を与えられた場合、ある順序で各ゴール原子に対して最適な計画を計算する。
我々は,我々の方法が保証されている条件を定式化し,有効な一般化計画と探索のための状態空間決定公理を学習する。
論文 参考訳(メタデータ) (2025-11-14T09:16:32Z) - DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping [74.34061104176554]
我々は、ディープリサーチエージェントの計画能力を効果的に向上するエンドツーエンドのRLフレームワークであるDeepPlannerを提案する。
提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作るとともに,計画集約ロールアウトに対するサンプルレベルの優位性を選択的に向上させる。
論文 参考訳(メタデータ) (2025-10-14T20:47:05Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - Symbolic Numeric Planning with Patterns [1.450144681559089]
我々は,有界$n$を持つ$Pi$のプランを,最先端のロールアップと緩和された$exists$エンコーディングよりも少ない変数と/または節の式として見つけるという問題をエンコードする。
我々は,今年の国際計画コンペティションにおいて,プランナーのPattyが極めて優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2023-12-15T17:20:25Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。