論文の概要: Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training
- arxiv url: http://arxiv.org/abs/2605.12483v3
- Date: Fri, 15 May 2026 15:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:25.954039
- Title: Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training
- Title(参考訳): GRPO と On-Policy Distillation を超えて: 言語モデル後学習のための経験的スパース・ツー・デンス・リワード原理
- Authors: Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard,
- Abstract要約: トレーニング後のワークフローは、標準レシピよりも効果的にラベル付けされたトレーニングデータを割り当てる。
報酬密度の原則によってワークフローを正当化します。
このレシピは、Llama-3.1-8B-インストラクタとLlama-3.3-70B-インストラクタで複製される。
- 参考スコア(独自算出の注目度): 20.04756350098974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a four-stage post-training workflow for LLM reasoning that allocates scarce labeled training data more effectively than standard recipes. The stages are: (1) sparse-reward RL on a larger teacher; (2a) forward-KL warmup on teacher rollouts; (2b) on-policy distillation under student rollouts; (3) optional sparse-reward RL on the deployment student using any held-out labeled data. On verifiable math with a Qwen3-1.7B deployment student, the workflow reaches $79.3\%$ MATH and $25.2\%$ AIME~2024 (avg@16), versus $75.9\%$ and $19.8\%$ for direct GRPO on the same student. We justify the workflow through a reward-density principle: each gradient step of on-policy distillation is a local trust-region update under a dense teacher-induced implicit reward, informative only when the teacher is itself reward-shaped (condition C1) and lies within a small KL of the student (condition C2). Stages~1 and~2a are the explicit devices that enforce C1 and C2. A single component ablation confirms that each stage is load-bearing: replacing the RL-improved teacher with a raw teacher costs $7.8$ MATH points, removing the forward-KL warmup costs $1.7$ points, and removing the on-policy distillation stage costs $3.3$ points. The recipe replicates on Llama-3.1-8B-Instruct with a Llama-3.3-70B-Instruct teacher.
- Abstract(参考訳): LLM推論のための4段階後学習ワークフローを提案し、標準レシピよりも少ないラベル付きトレーニングデータを効果的に割り当てる。
1)大規模教員のスパースリワードRL, (2a) 教師のロールアウトにおけるフォワードKLウォームアップ, (2b) 学生のロールアウトによるオンライン蒸留, (3) 留置済みラベル付きデータを用いた展開学生のスパースリワードRL。
Qwen3-1.7Bの配置学生による検証可能な数学では、ワークフローは79.3\%$ MATHと25.2\%$ AIME~2024 (avg@16)に達する。
オンライン蒸留の段階的段階は,教師が報酬型(条件C1)であり,学生(条件C2)の小さなKL内にある場合にのみ,教師が引き起こした暗黙的な報酬の下での地域信頼圏更新である。
ステージ~1とステージ~2aはC1とC2を強制する明示的な装置である。
RLを改良した教師を生の教師に置き換えるには7.8ドルのMATHポイント、フォワードKLウォームアップを除去するには1.7ドルのポイント、オンライン蒸留ステージを除去するには3.3ドルのポイントがかかる。
このレシピは、Llama-3.1-8B-インストラクタとLlama-3.3-70B-インストラクタで複製される。
関連論文リスト
- Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision [26.922922043969958]
我々は、コンピュータ・アズ・教師(CaT)による調査を監督に転換することを提案する。
CaTは平行ロールアウトのグループから単一の参照を合成し、それに向けて最適化する。
テストタイムの手順として、CaTはGemma 3 4B、Qwen 3 4B、Llama 3.1 8Bを改善している。
論文 参考訳(メタデータ) (2025-09-17T17:59:42Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。