論文の概要: Extreme Region Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.25582v1
- Date: Mon, 25 May 2026 08:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.476483
- Title: Extreme Region Policy Distillation
- Title(参考訳): 極端地域政策蒸留
- Authors: Changyu Chen, Xiting Wang, Rui Yan,
- Abstract要約: 積極的多段階最適化は早い初期ゲインをもたらすが、過度な更新は軌道の確率を逸脱させ、エントロピーを崩壊させる。
これは、サンプル効率をKL効率から切り離す2段階のフレームワークであるERPD(Extreme Region Policy Distillation)を動機付けている。
- 参考スコア(独自算出の注目度): 36.61472284280031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning for large language models faces a fundamental trade-off between sample efficiency and asymptotic performance: strictly on-policy methods discard trajectories after a single update, while off-policy reuse introduces distribution mismatch that existing trust-region techniques mitigate primarily by enforcing conservative optimization, often leaving rich training signals underutilized. To investigate this, we perform extensive off-policy updates on fixed data. Our experiments reveal that aggressive multi-step optimization brings rapid initial gains, but excessive updates cause trajectory probabilities to deviate and entropy to collapse, with performance plateauing early. Tightening KL constraints merely lowers the ceiling without resolving the degradation. This motivates Extreme Region Policy Distillation (ERPD), a two-stage framework that decouples sample efficiency from KL efficiency. The first stage performs weakly constrained off-policy optimization on fixed data to maximally extract training signals. The resulting policy provides token-level supervision. In the second stage, we distill these signals into the base policy under trust-region constraints, filtering harmful drift while preserving useful signals. The distilled policy achieves comparable or better performance with substantially smaller KL divergence, indicating that much of the first-stage divergence was spent on unnecessary drift rather than genuine improvement. Crucially, ERPD accommodates both strong and weak teachers: when aggressive optimization yields no stronger policy, even degenerate teachers provide effective supervision via alternative signal construction strategies. We validate ERPD on mathematical reasoning, showing gains for strong base models where on-policy training plateaus, and reliable improvements with weak teachers.
- Abstract(参考訳): 大きな言語モデルの強化学習は、サンプル効率と漸近的なパフォーマンスの基本的なトレードオフに直面している。厳密には、オンポリシーメソッドは、1回の更新後にトラジェクトリを破棄する。
これを調べるため、固定データに対して大規模な非政治的更新を行う。
実験の結果, 積極的マルチステップ最適化は, 高速な初期ゲインをもたらすが, 過度な更新によって軌道の確率が低下し, エントロピーが崩壊し, 性能が低下する可能性が示唆された。
KL制限の強化は、劣化を解消することなく、単に天井を下げるだけである。
これは、サンプル効率をKL効率から切り離す2段階のフレームワークであるERPD(Extreme Region Policy Distillation)を動機付けている。
第1段階は、トレーニング信号を最大に抽出するために、固定データに対して弱い制約付きオフポリシー最適化を行う。
結果として得られたポリシーはトークンレベルの監視を提供する。
第2段階では、これらの信号を信頼領域制約の下で基本方針に蒸留し、有用な信号を保持しながら有害なドリフトをフィルタリングする。
蒸留法はKLの発散量を大幅に小さくして同等あるいは優れた性能を達成し、第1段階の発散の大部分が真の改良ではなく不必要なドリフトに費やされたことを示唆している。
ERPDは強い教師と弱い教師の両方に対応しており、攻撃的な最適化が強い政策を産まない場合、退学した教師でさえ代替信号構築戦略を通じて効果的な監督を行う。
ERPDを数学的推論で検証し、オンライン学習台地を持つ強力なベースモデルと、弱い教師による信頼性の向上を示す。
関連論文リスト
- Near-Policy: Accelerating On-Policy Distillation via Asynchronous Generation and Selective Packing [44.26853590985694]
NPD(Near-Policy Distillation)は、学生生成を訓練から切り離す非同期アプローチである。
NPDは、オンラインベースラインの8.1倍のスピードアップを実現し、SFTを8.09%上回る。
本手法では,openPangu-Embedded-1Bが68.73%に達し,Qwen3-1.7Bを大きく上回っている。
論文 参考訳(メタデータ) (2026-05-07T09:50:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。