論文の概要: Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level
- arxiv url: http://arxiv.org/abs/2605.06387v3
- Date: Wed, 13 May 2026 04:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.773575
- Title: Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level
- Title(参考訳): 非対称オン・ポリシィ蒸留--富軒レベルでのブリジング爆発と模擬
- Authors: Nan Jia, Haojin Yang, Xing Ma, Jiesong Lian, Shuailiang Zhang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Zequn Sun,
- Abstract要約: オンライン蒸留(OPD)は、トークンレベルの教師のフィードバックで生徒を自身の軌道で訓練する。
その標準的優位重み付け政策勾配は、高分散更新、ゼロアドバンテージ領域での勾配の消失、補正信号が不十分な場合の探索ボトルネックなどの3つの構造的弱点に悩まされている。
正の強化学習を保ちつつ,非正の負の強化を非正の利得領域における局所的な発散最小化に置き換える非対称オンポリシィ蒸留(AOPD)を提案する。
- 参考スコア(独自算出の注目度): 23.59808224440603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) trains a student on its own trajectories with token-level teacher feedback and often outperforms off-policy distillation and standard reinforcement learning. However, we find that its standard advantage weighted policy gradient suffers from three structural weaknesses, including high variance updates, vanishing gradients in zero-advantage regions, and exploration bottlenecks when corrective signals are insufficient. We therefore propose Asymmetric On-Policy Distillation (AOPD), which replaces ineffective negative reinforcement with localized divergence minimization in non-positive advantage regions while preserving positive reinforcement learning. Experiments on mathematical reasoning benchmarks show that AOPD consistently outperforms standard OPD, with average gains of 4.09 / 8.34 under strong / weak initialization, respectively. AOPD also maintains higher policy entropy during training and better capability retention during sequential tool-use adaptation.
- Abstract(参考訳): オンライン蒸留(OPD)は、トークンレベルの教師のフィードバックで生徒を自身の軌道で訓練する。
しかし、その標準的優位重み付け政策勾配は、高分散更新、ゼロアドバンテージ領域での勾配の消失、補正信号が不十分な場合の探索ボトルネックなどの3つの構造的弱点に悩まされている。
そこで本研究では, 正の強化学習を保ちながら, 非正の負の強化を非正の利得領域の局所的分散化に置き換える非対称型オンポリシィ蒸留法を提案する。
数学的推論ベンチマークの実験では、AOPDは標準PDより一貫して優れており、それぞれ強い初期化と弱い初期化の下では平均4.09/8.34の利得がある。
AOPDはまた、トレーニング中により高いポリシーのエントロピーを維持し、シーケンシャルなツール使用適応中に能力の保持を改善する。
関連論文リスト
- ANO: A Principled Approach to Robust Policy Optimization [19.004647288017814]
政策最適化のための基本設計空間を導入し、ロバストな推定器が本質的に外れ値を抑制する必要があることを示す。
ANO(Anchored Neighborhood Optimization)は,クリッピングを再帰的な勾配機構でシームレスに置き換える手法である。
継続的(MuJoCo)と離散的(Atari)制御において、ANOは、高度に攻撃的な学習率の下でも、政策崩壊を独特に防止する、堅牢な最先端技術を確立している。
論文 参考訳(メタデータ) (2026-05-04T08:15:52Z) - EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training [69.32453275232662]
学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
論文 参考訳(メタデータ) (2026-04-21T14:07:39Z) - SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting [17.504616835765617]
両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-12T15:26:14Z) - Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings [7.554296968064274]
検証リワード(RLVR)を用いた強化学習のための階層型ポリシー最適化(HAPO)を提案する。
HAPOは、障害時に教師のデモンストレーションに最適化を選択的にアンカーする、後ろ向きのメカニズムを採用している。
HAPOは,政策改善に伴う教師の信号のアニールを自然に行うことで,非バイアスのオン・ポリティクス勾配を回復する。
論文 参考訳(メタデータ) (2026-03-11T21:33:41Z) - Scaling Reasoning Efficiently via Relaxed On-Policy Distillation [49.39199261602195]
REOPOLD(Relaxed On-Policy Distillation)は、標準的なオンライン蒸留の厳密な模倣制約を緩和することで最適化を安定化するフレームワークである。
特に、REOPOLDは、混合型報酬クリッピング、エントロピーベースのトークンレベルのダイナミックサンプリング、および統一的な探索・縮小訓練戦略を通じて、教師の報酬を選択的に活用する。
論文 参考訳(メタデータ) (2026-03-11T16:26:52Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。