論文の概要: Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation
- arxiv url: http://arxiv.org/abs/2510.11620v1
- Date: Mon, 13 Oct 2025 17:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.471304
- Title: Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation
- Title(参考訳): マルチパス計画アグリゲーションによる長鎖推論の強化
- Authors: Siheng Xiong, Ali Payani, Faramarz Fekri,
- Abstract要約: 我々は、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。
本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。
これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用するプロセスレベルの優先度最適化スキームであるStep-DPOを導入する。
- 参考スコア(独自算出の注目度): 32.86351316550696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time scaling enhances the reasoning ability of a language model (LM) by extending its chain-of-thought (CoT). However, existing approaches typically generate the entire reasoning chain in a single forward pass, which often leads to CoT derailment, i.e., the reasoning trajectory drifting off course due to compounding errors. This problem is particularly severe for smaller LMs with long CoTs due to their limited capacity. To address this, we analyze raw long CoTs and uncover a reasoning hierarchy consisting of planning and execution steps. Our analysis reveals that most reasoning errors stem from incorrect planning. Motivated by this observation, we propose Multi-Path Plan Aggregation (MPPA), a framework that augments single-pass reasoning with plan exploration and aggregation. Following a variable interval schedule based on the token position, MPPA generates multiple candidate plans and aggregates them into a refined planning step. To maintain efficiency, we adopt a minimal design in which the base LM serves as the primary policy, while a lightweight LoRA module implements the plan aggregation policy. We further observe that outcome-reward RL is inefficient for long trajectories (e.g., exceeding 4K tokens). To overcome this, we introduce online Step-DPO, a process-level preference optimization scheme that leverages Twisted Sequential Monte Carlo (TSMC) to provide scalable stepwise supervision using small LMs. This yields more efficient training, improved stability, and higher accuracy. Extensive experiments on challenging math, science, and logical reasoning benchmarks demonstrate that, with only 10% SFT data and 5% of preference pairs, our method outperforms both the DeepSeek-R1 distillation baseline and the outcome-reward RL baseline across multiple base models and tasks.
- Abstract(参考訳): 推論時間スケーリングは、言語モデル(LM)の推論能力を高め、そのチェーン・オブ・シント(CoT)を拡張する。
しかし、既存のアプローチは、通常、1つの前方通過で推論チェーン全体を生成し、しばしばCoT脱線、すなわち複合的なエラーによって軌道を逸脱する推論軌道につながる。
この問題は、限られた容量のため、CoTが長い小さなLMでは特に深刻である。
これを解決するために、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。
分析の結果,ほとんどの推論ミスは誤った計画に起因することがわかった。
本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。
トークン位置に基づく可変間隔スケジュールに従って、MPPAは複数の候補プランを生成し、それらを洗練された計画ステップに集約する。
効率性を維持するため,軽量なLoRAモジュールが計画集約ポリシーを実装しているのに対して,基本LMが主方針として機能する最小限の設計を採用する。
さらに, 結果回帰RLは長い軌道(例えば4Kトークンを超える)では非効率であることが観察された。
これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用したプロセスレベルの優先度最適化方式であるStep-DPOを導入する。
これにより、より効率的なトレーニングが得られ、安定性が向上し、精度が向上する。
SFTデータの10%と選好ペアの5%で、DeepSeek-R1蒸留ベースラインと結果回帰RLベースラインを複数のベースモデルとタスクで比較した。
関連論文リスト
- Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning [22.177866778776814]
本稿では,高レベルプランニングときめ細かいCoT推論の両方を改善するために設計された2段階のフレームワークを提案する。
第1段階では,高度なLCMを用いてCoTを蒸留して高レベル誘導を行い,それを教師付き微調整に用いる。
第2段階では、最終出力と高レベルガイダンスの品質を協調的に最適化するガイダンス対応RL手法を導入する。
論文 参考訳(メタデータ) (2025-10-02T09:28:13Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization [26.462701299259248]
大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑なタスクに強い性能を示す。
長いアウトプットは計算コストを増大させ、過度に考え直し、推論の有効性と効率のバランスをとる上での課題を提起する。
本稿では, LRMの生成時間を削減するための効率的な手法について検討する。
論文 参考訳(メタデータ) (2025-08-13T20:00:09Z) - PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - CRISP: Complex Reasoning with Interpretable Step-based Plans [15.656686375199921]
数学的推論とコード生成のための高レベルプランのデータセットであるCRISP(Complex Reasoning with Interpretable Step-based Plans)を紹介する。
CRISP上で小さなモデルを微調整することで、より大規模なモデルよりも高品質なプランを少数ショットプロンプトで作成できることを実証する。
論文 参考訳(メタデータ) (2025-07-09T11:40:24Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。