論文の概要: Scaling Reasoning Efficiently via Relaxed On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2603.11137v1
- Date: Wed, 11 Mar 2026 16:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.540027
- Title: Scaling Reasoning Efficiently via Relaxed On-Policy Distillation
- Title(参考訳): リラクシドオン・ポリシリ蒸留による共振器の高効率化
- Authors: Jongwoo Ko, Sara Abdali, Young Jin Kim, Tianyi Chen, Pashmina Cameron,
- Abstract要約: REOPOLD(Relaxed On-Policy Distillation)は、標準的なオンライン蒸留の厳密な模倣制約を緩和することで最適化を安定化するフレームワークである。
特に、REOPOLDは、混合型報酬クリッピング、エントロピーベースのトークンレベルのダイナミックサンプリング、および統一的な探索・縮小訓練戦略を通じて、教師の報酬を選択的に活用する。
- 参考スコア(独自算出の注目度): 49.39199261602195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation is pivotal for transferring reasoning capabilities to capacity-constrained models, yet remains prone to instability and negative transfer. We show that on-policy distillation can be interpreted, both theoretically and empirically, as a form of policy optimization, where the teacher-student log-likelihood ratio acts as a token reward. From this insight, we introduce REOPOLD (Relaxed On-Policy Distillation) a framework that stabilizes optimization by relaxing the strict imitation constraints of standard on-policy distillation. Specifically, REOPOLD temperately and selectively leverages rewards from the teacher through mixture-based reward clipping, entropy-based token-level dynamic sampling, and a unified exploration-to-refinement training strategy. Empirically, REOPOLD surpasses its baselines with superior sample efficiency during training and enhanced test-time scaling at inference, across mathematical, visual, and agentic tool-use reasoning tasks. Specifically, REOPOLD outperforms recent RL approaches achieving 6.7~12x greater sample efficiency and enables a 7B student to match a 32B teacher in visual reasoning with a ~3.32x inference speedup.
- Abstract(参考訳): オンライン蒸留は、キャパシティに制限されたモデルに推論能力を移す上で重要な要素であるが、不安定性と負の移動が生じる傾向にある。
オンライン蒸留は理論的にも実証的にも政策最適化の一形態として解釈でき、教師と学生の対数-類似比がトークン報酬として機能することを示す。
この知見から,標準的なオンライン蒸留の厳密な模倣制約を緩和することにより最適化を安定化するREOPOLD(Relaxed On-Policy Distillation)を導入する。
特に、REOPOLDは、混合型報酬クリッピング、エントロピーベースのトークンレベルのダイナミックサンプリング、統一的な探索・修正訓練戦略を通じて、教師からの報酬を温かく選択的に活用する。
経験的に、REOPOLDは、トレーニング中のサンプル効率が向上し、数学的、視覚的、エージェント的なツール使用推論タスクにわたって、推論時のテスト時間スケーリングが強化された。
具体的には、REOPOLDは最近のRLアプローチよりも6.7〜12倍高いサンプル効率を実現し、7Bの学生が視覚的推論において32Bの教師と3.32倍の推論速度で一致させることができる。
関連論文リスト
- Fast and Effective On-policy Distillation from Reasoning Prefixes [5.0200371345178]
オンライン蒸留(OPD)は学生モデルの軌跡を抽出し、トークンレベルで教師と監督する。
そこで本研究では, 学生生成出力のプレフィックスのみに蒸留目標を適用し, 蒸留の早期に各サンプリングを終了する, 簡易かつ効果的なPDの修正を提案する。
AI-for-Mathベンチマークとアウト・オブ・ベンチマークの実験では、オンラインプレフィックス蒸留はフルPDのパフォーマンスと一致し、FLOPのトレーニングを2倍-47倍削減した。
論文 参考訳(メタデータ) (2026-02-16T23:28:54Z) - KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning [24.072603982041798]
強化学習は、大規模言語や視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかしながら、推論指向のRLポストトレーニングは、低軌道レベルの報酬のため、基本的には困難である。
近年のオンライン蒸留法では,教師の集中管理によって最適化の安定化が図られている。
論文 参考訳(メタデータ) (2026-01-30T23:28:37Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - On the Reuse Bias in Off-Policy Reinforcement Learning [28.29153543457396]
Reuse Biasは、評価と最適化のためのリプレイバッファの再利用によって生じる、政治外の評価のバイアスである。
本稿では,リプレイバッファのデータによる現在の政策の非政治的評価と最適化が,目的を過大評価する結果となることを示す。
本稿では,新しいBIRIS(Bias-Regularized Importance Smpling)フレームワークと,Reuse Biasの悪影響を軽減する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T06:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。