論文の概要: Near-Policy: Accelerating On-Policy Distillation via Asynchronous Generation and Selective Packing
- arxiv url: http://arxiv.org/abs/2605.05940v1
- Date: Thu, 07 May 2026 09:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.673294
- Title: Near-Policy: Accelerating On-Policy Distillation via Asynchronous Generation and Selective Packing
- Title(参考訳): 近接ポリシィ: 非同期生成と選択包装によるオンポリシィ蒸留の高速化
- Authors: Miao Rang, Zhenni Bi, Hang Zhou, Kai Han, Xuechun Wang, An Xiao, Xinghao Chen, Yunhe Wang, Hanting Chen,
- Abstract要約: NPD(Near-Policy Distillation)は、学生生成を訓練から切り離す非同期アプローチである。
NPDは、オンラインベースラインの8.1倍のスピードアップを実現し、SFTを8.09%上回る。
本手法では,openPangu-Embedded-1Bが68.73%に達し,Qwen3-1.7Bを大きく上回っている。
- 参考スコア(独自算出の注目度): 44.26853590985694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard knowledge distillation for autoregressive models often suffers from distribution mismatch. While on-policy methods mitigate this by leveraging student-generated outputs, they rely on computationally expensive Reinforcement Learning (RL) frameworks. To improve efficiency, we propose Near-Policy Distillation (NPD), an asynchronous approach that decouples student generation from training. This reformulation enables Supervised Fine-Tuning (SFT) with sequence packing. However, asynchronous updates inevitably introduce policy lag and sample noise, which can cause the behavior to drift from near-policy toward off-policy. To counteract this without sacrificing efficiency, NPD integrates sparse student updates and the $Δ$-IFD filtering mechanism, a heuristic sample selection mechanism that empirically stabilizes the optimization trajectory. By filtering extreme out-of-distribution samples, $Δ$-IFD prevents noise from dominating the gradients, ensuring updates remain within a safe proximal learning zone. Empirically, the NPD framework achieves a 8.1x speedup over on-policy baselines and outperforms SFT by 8.09%. Crucially, by effectively narrowing the exploration space for subsequent RL, our method enables openPangu-Embedded-1B to reach a state-of-the-art score of 68.73%, outperforming the substantially larger Qwen3-1.7B. Codes will be released soon.
- Abstract(参考訳): 自己回帰モデルに対する標準的な知識蒸留は、しばしば分布ミスマッチに悩まされる。
オンラインの手法は、学生が生成した出力を活用することによってこれを緩和するが、計算に高価な強化学習(RL)フレームワークに依存している。
効率を向上させるために,学生を訓練から切り離す非同期アプローチであるNear-Policy Distillation (NPD)を提案する。
この改質により、シーケンスパッキングによるスーパービジョンファインチューニング(SFT)が可能となる。
しかし、非同期更新は必然的にポリシーラグとサンプルノイズを導入し、それによって、ほぼ政治に近いものから政治以外のものへと振る舞う。
効率を犠牲にすることなくこれに対応するため、NPDはスパースな学生更新と$$$-IFDフィルタリング機構、すなわち最適化軌道を経験的に安定化させるヒューリスティックなサンプル選択機構を統合している。
極端に分布しないサンプルをフィルタリングすることにより、$Δ$-IFDはノイズが勾配を支配するのを防ぎ、更新が安全な近位学習ゾーン内に留まることを保証する。
実証的に、NPDフレームワークは、政治上のベースラインよりも8.1倍のスピードアップを実現し、SFTを8.09%上回る。
重要なことは、その後のRLの探索空間を効果的に狭めることで、openPangu-Embedded-1Bが68.73%に達し、Qwen3-1.7Bを大きく上回る。
コードも間もなくリリースされる予定だ。
関連論文リスト
- ANO: A Principled Approach to Robust Policy Optimization [19.004647288017814]
政策最適化のための基本設計空間を導入し、ロバストな推定器が本質的に外れ値を抑制する必要があることを示す。
ANO(Anchored Neighborhood Optimization)は,クリッピングを再帰的な勾配機構でシームレスに置き換える手法である。
継続的(MuJoCo)と離散的(Atari)制御において、ANOは、高度に攻撃的な学習率の下でも、政策崩壊を独特に防止する、堅牢な最先端技術を確立している。
論文 参考訳(メタデータ) (2026-05-04T08:15:52Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Harnessing Bounded-Support Evolution Strategies for Policy Refinement [3.3656696418661975]
三角分布ES対は、安定で、並列化可能で、勾配のない更新を提供する中心ランク有限差分推定器を持つ三角形雑音に有界である。
2段階のパイプライン - PPO事前トレーニングとTD-ESの改良 – では、早期サンプル効率を維持しながら、堅牢な後期ステージゲインを実現している。
ロボット操作タスクのスイート全体で、TD-ESはPPOと比較して26.5%の成功率を高め、信頼性の高い改良のための単純で計算軽量なパスを提供する。
論文 参考訳(メタデータ) (2025-11-13T03:35:52Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。