論文の概要: SAPO: Self-Adaptive Process Optimization Makes Small Reasoners Stronger
- arxiv url: http://arxiv.org/abs/2601.20312v2
- Date: Mon, 02 Feb 2026 10:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.686108
- Title: SAPO: Self-Adaptive Process Optimization Makes Small Reasoners Stronger
- Title(参考訳): SAPO: セルフアダプティブなプロセス最適化によって、小さな推論がより強くなる
- Authors: Kaiyuan Chen, Guangmin Zheng, Jin Wang, Xiaobing Zhou, Xuejie Zhang,
- Abstract要約: 既存の自己進化的手法は、きめ細かい推論ステップの影響を見落とし、それが理性検証のギャップにつながる。
小言語モデル(SLM)における自己改善のための自己適応プロセス最適化法(SAPO)を提案する。
- 参考スコア(独自算出の注目度): 13.044308337439249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing self-evolution methods overlook the influence of fine-grained reasoning steps, which leads to the reasoner-verifier gap. The computational inefficiency of Monte Carlo (MC) process supervision further exacerbates the difficulty in mitigating the gap. Motivated by the Error-Related Negativity (ERN), which the reasoner can localize error following incorrect decisions, guiding rapid adjustments, we propose a Self-Adaptive Process Optimization (SAPO) method for self-improvement in Small Language Models (SLMs). SAPO adaptively and efficiently introduces process supervision signals by actively minimizing the reasoner-verifier gap rather than relying on inefficient MC estimations. Extensive experiments demonstrate that the proposed method outperforms most existing self-evolution methods on two challenging task types: mathematics and code. Additionally, to further investigate SAPO's impact on verifier performance, this work introduces two new benchmarks for process reward models in both mathematical and coding tasks.
- Abstract(参考訳): 既存の自己進化的手法は、きめ細かい推論ステップの影響を見落とし、それが理性検証のギャップにつながる。
モンテカルロ(MC)プロセスの非効率性は、ギャップを緩和することの難しさをさらに悪化させる。
誤り関連ネガティビティ (ERN) によって動機付けられ, 誤りの局所化, 迅速な調整を導出し, 小言語モデルにおける自己改善のための自己適応プロセス最適化 (SAPO) 手法を提案する。
SAPOは、非効率なMC推定に頼るのではなく、推論器と検証器のギャップを積極的に最小化し、プロセス監視信号を適応的かつ効率的に導入する。
大規模な実験により,提案手法は2つの課題型(数学とコード)において,既存の自己進化手法よりも優れていることが示された。
さらに、SAPOの検証性能への影響をさらに調査するため、数学的タスクとコーディングタスクの両方において、プロセス報酬モデルのための2つの新しいベンチマークを導入する。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - On the Effect of Sampling Diversity in Scaling LLM Inference [57.31028064284527]
大規模言語モデル(LLM)のスケーリング推論は、パフォーマンス向上の鍵となる。
解の精度と応答の有意な多様性の関係から,スケーリング推論における急激な多様性の効果を体系的に研究した。
また,Best-of-N$選択後の有意義な多様なプロンプトから生成した応答は,定常的なプロンプトから生成した応答よりも有意に低い値を示した。
論文 参考訳(メタデータ) (2025-02-16T07:37:58Z) - Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。
モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。
本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文 参考訳(メタデータ) (2024-11-01T17:18:45Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。