論文の概要: Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.27765v1
- Date: Tue, 26 May 2026 23:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.599361
- Title: Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning
- Title(参考訳): スウィートスポットの修復 : LLMリソン用パスレート加重自己蒸留法
- Authors: Zehao Liu, Yuanpu Cao, Jinghui Chen, Vasant G. Honavar,
- Abstract要約: 自己蒸留政策最適化(SDPO)は、大規模言語モデルを用いた強化学習のための高密度トークンレベルの信用割当を提供する。
我々はこのギャップをGRPOの有利な正規化のレンズを通して解析する。
科学的推論とツール使用ベンチマークの実験では、SC-SDPOはSDPOよりも一貫して改善されている。
- 参考スコア(独自算出の注目度): 37.935234078277354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Distillation Policy Optimization (SDPO) provides dense token-level credit assignment for reinforcement learning with large language models by leveraging the model's own feedback-conditioned predictions as a self-teacher. Unlike GRPO, however, whose group-relative advantage naturally concentrates learning on a sweet spot of intermediate-difficulty questions, SDPO's KL-based advantage lacks an implicit notion of difficulty awareness. We analyze this gap through the lens of GRPO's advantage normalization. Extending the learnability framework to normalized rewards, we show that normalization absorbs the variance term $p(1-p)$, equalizing leading-order learnability across questions and leaving $\sqrt{p(1-p)}$ as the sole residual scaling factor in the per-question gradient. This analysis yields a simple prescription: weight each question's SDPO loss by $[\hat{p}(1-\hat{p})]^{1/2}$, resulting in SC-SDPO, a scale-consistent variant of SDPO. The proposed weights are obtained as a zero-cost byproduct of on-policy rollouts with batch-adaptive normalization, inducing an implicit curriculum that dynamically tracks the model's evolving competence. Experiments on scientific reasoning and tool-use benchmarks demonstrate that SC-SDPO consistently improves over SDPO, yielding gains of +3.2/+4.3 (mean@16/maj@16) on Qwen3-8B and +1.8/+3.0 on OLMo-3-7B, while preserving stable training dynamics throughout optimization.
- Abstract(参考訳): 自己蒸留政策最適化(SDPO)は、自己学習者としてモデル自身のフィードバック条件付き予測を活用することで、大規模言語モデルによる強化学習のための高密度トークンレベルの信用割当を提供する。
しかし GRPO とは異なり、グループ相対的優位性は自然に中間微分質問のスイートスポットに学習を集中させるが、SDPO の KL ベースの優位性は難易度認識の暗黙的な概念を欠いている。
我々はこのギャップをGRPOの有利な正規化のレンズを通して解析する。
正規化報酬への学習可能性フレームワークの拡張により、正規化は分散項 $p(1-p)$ を吸収し、質問ごとの事前学習可能性に等しくし、クエリごとの勾配における唯一の残留スケーリング因子として$\sqrt{p(1-p)}$ を残すことを示す。
それぞれの質問のSDPO損失を$[\hat{p}(1-\hat{p})]^{1/2}$とすると、SC-SDPOはSDPOのスケール一貫性のある変種である。
提案したウェイトは,バッチ適応正規化によるオンラインロールアウトのゼロコスト副産物として得られ,モデルが進化する能力を動的に追跡する暗黙のカリキュラムを誘導する。
科学的推論とツールユースベンチマークの実験により、SC-SDPOはSDPOよりも一貫して改善され、Qwen3-8Bでは+3.2/+4.3(mean@16/maj@16)、OLMo-3-7Bでは+1.8/+3.0のゲインが得られた。
関連論文リスト
- Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States [14.658333957936769]
内部状態価値推定による政策最適化を導入する。
ポリシーフォワードパス中に既に計算されているポリシーモデルの内部信号を用いて、無視可能なコストでベースラインを得る。
軽量プローブは、プロンプトおよび生成された軌道の隠れ状態から期待される検証可能な報酬を予測する。
論文 参考訳(メタデータ) (2026-05-08T10:49:36Z) - Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective [22.848847562976633]
トークンレベルのIS比は、PPOとGRPOが採用しているように、プレフィックス状態の分布ミスマッチを無視してバイアスを導入する。
我々は、累積トークンIS比と、累積対数比の自然な$sqrtt$成長に応じて、対数空間のクリップ境界を拡大する位置適応クリッピングを組み合わせたCTPOを提案する。
論文 参考訳(メタデータ) (2026-05-08T06:35:02Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。