論文の概要: Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training
- arxiv url: http://arxiv.org/abs/2605.12483v2
- Date: Thu, 14 May 2026 15:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 18:18:46.743019
- Title: Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training
- Title(参考訳): GRPO と On-Policy Distillation を超えて: 言語モデル後学習のための経験的スパース・ツー・デンス・リワード原理
- Authors: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard,
- Abstract要約: ラベル付き検証可能なトレーニングデータが不足している場合には、各チェック済みサンプルを、最も価値の高い場所で使用する必要がある。
スパース・シークエンス・レベルの報酬は、より良い振る舞いを探索し発見できる強力なモデルにとって最も有用である。
これは単純なアロケーションルールを示唆している: 最強の教師を改善するためにラベル付きデータを上流で使用し、より密集した監督を通じて改善された振る舞いを下流に転送する。
- 参考スコア(独自算出の注目度): 20.04756350098974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When labeled verifiable training data is scarce, each checked example should be used where it has the most value. A common approach is to train the deployment student model directly with sparse RL methods such as GRPO. We argue that this is often inefficient. Sparse sequence-level reward is most useful for strong models that can explore and discover better behavior, while dense token-level teacher supervision is better suited for compressing that behavior into a smaller student. This suggests a simple allocation rule: use scarce labeled data upstream to improve the strongest available teacher, then transfer the improved behavior downstream through dense supervision. In this view, GRPO-style sparse RL and OPD-style distillation are not competing methods, but two reward-density regimes used at different stages. We evaluate this rule on verifiable math tasks with Qwen3 and Llama models. For a fixed Qwen3-1.7B deployment student, distilling from an RL-improved 8B teacher outperforms applying GRPO directly to the student with the same labeled data. In contrast, distilling from the same teacher before RL gives weaker results. The transfer bridge is also important: a forward-KL warmup on teacher rollouts followed by OPD on student rollouts performs best on MATH before any later student-side sparse RL, and gives the strongest pre-Stage 3 AIME results for the canonical 8B and 14B teachers. Finally, the bridge makes later student-side RL more effective. GRPO is weak when applied to a cold student, but after the bridge it raises MATH accuracy from 75.4% to 78.5%, outperforming a matched replay control by 2.8 points. Overall, the lesson is to avoid spending scarce labeled data on the least prepared policy: use sparse reward for teacher-side discovery, dense transfer for student compression, and student-side sparse reward only after the student has been bridged.
- Abstract(参考訳): ラベル付き検証可能なトレーニングデータが不足している場合には、各チェック済みサンプルを、最も価値の高い場所で使用する必要がある。
一般的なアプローチは、GRPOのようなスパースなRLメソッドで、デプロイ学生モデルを直接訓練することです。
これはしばしば非効率であると主張する。
スパース・シークエンス・レベルの報酬は、より良い振る舞いを探索し発見できる強力なモデルにとって最も有用であるが、より密集したトークンレベルの教師監督は、その振る舞いをより小さな学生に圧縮するのにより適している。
これは単純なアロケーションルールを示唆している: 最強の教師を改善するためにラベル付きデータを上流で使用し、より密集した監督を通じて改善された振る舞いを下流に転送する。
この観点から、GRPO型スパースRLとPD型蒸留は競合する手法ではなく、異なる段階で用いられる2つの報酬密度規則である。
このルールをQwen3およびLlamaモデルを用いて検証可能な数学タスクで評価する。
固定Qwen3-1.7B配置学生の場合、RL改良8B教師からの蒸留は、GRPOを同じラベル付きデータで生徒に直接適用するよりも優れる。
対照的に、RLの前に同じ教師から蒸留すると、より弱い結果が得られる。
トランスファーブリッジは、教師のロールアウトに対するフォワードKLウォームアップと、学生のロールアウトに対するOPDは、後の学生側のスパースRLの前にMATHでベストを尽くし、標準8Bと14Bの教師に対して最強のプレステージ3 AIME結果を与える。
最後に、この橋は後の学生側のRLをより効果的にする。
GRPOは寒冷な学生に適用されると弱いが、橋渡し後、MATHの精度を75.4%から78.5%に引き上げ、マッチしたリプレイ制御を2.8ポイント上回る。
全体としては、教師側の発見にスパース報酬、学生の圧縮に密度の高い転送、学生側のスパース報酬を、学生が橋渡しされた後にのみ利用すること。
関連論文リスト
- Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision [26.922922043969958]
我々は、コンピュータ・アズ・教師(CaT)による調査を監督に転換することを提案する。
CaTは平行ロールアウトのグループから単一の参照を合成し、それに向けて最適化する。
テストタイムの手順として、CaTはGemma 3 4B、Qwen 3 4B、Llama 3.1 8Bを改善している。
論文 参考訳(メタデータ) (2025-09-17T17:59:42Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。