論文の概要: Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization
- arxiv url: http://arxiv.org/abs/2605.05040v1
- Date: Wed, 06 May 2026 15:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.909899
- Title: Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization
- Title(参考訳): 嗜好に基づく自己蒸留:逆正則化によるKLマッチングを超えて
- Authors: Xin Yu, Liuchen Liao, Yiwen Zhang, Yingchen Yu, Lingzhou Xue, Qinzhen Guo,
- Abstract要約: 既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
- 参考スコア(独自算出の注目度): 18.027254451537342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation is an efficient alternative to reinforcement learning, offering dense token-level training signals. However, its reliance on a stronger external teacher has driven recent work on on-policy self-distillation, where the same model serves as both teacher and student under different prompt contexts. Yet, existing self-distillation methods largely reduce learning to KL matching toward the context-augmented teacher model. This approach often suffers from training instability and can degrade reasoning performance over time. Moreover, self-distillation from the same model with prompt augmentation lacks the exploratory diversity provided by a genuine external teacher. To address these limitations, we move beyond fixed-teacher KL matching and propose \textbf{P}reference-\textbf{B}ased \textbf{S}elf-\textbf{D}istillation (\textbf{PBSD}), which revisits on-policy self-distillation through a reward-regularized perspective. Instead of directly matching the teacher distribution, we derive a reward-regularized objective whose analytic optimum is a reward-reweighted teacher distribution, yielding a target policy provably superior to the original teacher under this objective. Practically, PBSD optimizes preference gaps between teacher and student samples while maintaining on-policy student sampling. We support this framework with a statistical analysis of the induced preference-learning problem, formally establishing when on policy self-distillation is preferable to learning from an external teacher in our setting. Experiments on mathematical reasoning and tool-use benchmarks across multiple model scales demonstrate that PBSD consistently achieves the strongest average performance among comparable baselines, showing improved training stability over prior self-distillation baselines while preserving token efficiency.
- Abstract(参考訳): オンライン蒸留は、密度の高いトークンレベルの訓練信号を提供する強化学習の効果的な代替手段である。
しかし、より強い外部教師への依存は、教師と学生の両方が異なる状況下で同じモデルが機能する、政治上の自己蒸留に関する最近の研究を駆り立てている。
しかし、既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
このアプローチは、しばしばトレーニングの不安定さに悩まされ、時間の経過とともに推論のパフォーマンスが低下する可能性がある。
さらに, 即時拡張を伴う同一モデルからの自己蒸留では, 真の外部教師による探索的多様性が欠如している。
これらの制限に対処するため、我々は固定型Teacher KL マッチングを超えて \textbf{P}reference-\textbf{B}ased \textbf{S}elf-\textbf{D}istillation (\textbf{PBSD})を提案する。
教師分布を直接一致させる代わりに、分析的最適度が報奨重み付けされた教師分布である報奨正規化目標を導出し、この目的の下では、本来の教師よりも確実に目標ポリシーを導出する。
実際に、PBSDは、教師と学生のサンプルの選好ギャップを最適化し、オンラインの学生サンプリングを維持している。
我々は,この枠組みを,外部教師からの学習に好適な政策自己蒸留の時期を正式に確立する,誘導された嗜好学習問題の統計的解析によって支援する。
複数のモデルスケールにわたる数学的推論とツール使用ベンチマークの実験により、PBSDは、トークン効率を保ちながら、以前の自己蒸留ベースラインよりもトレーニング安定性が改善された。
関連論文リスト
- PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners [9.324642081509756]
大規模言語モデル(LLM)推論には、モデル自身のテスト時間状態とトークンレベルの情報の両方に整合した監視が必要である。
近年の独占型自己蒸留は,同じモデルによる学生のロールアウトを,検証済みのソリューションコンテキスト下で評価することによって中等地を探索している。
ロールアウト-参照重なりに応じて検証された解を隠蔽し、エントロピー-ミスマッチトークンのスパースセットに小さなエネルギー空間を適用したPAINTを提案する。
論文 参考訳(メタデータ) (2026-04-29T11:56:07Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings [7.554296968064274]
検証リワード(RLVR)を用いた強化学習のための階層型ポリシー最適化(HAPO)を提案する。
HAPOは、障害時に教師のデモンストレーションに最適化を選択的にアンカーする、後ろ向きのメカニズムを採用している。
HAPOは,政策改善に伴う教師の信号のアニールを自然に行うことで,非バイアスのオン・ポリティクス勾配を回復する。
論文 参考訳(メタデータ) (2026-03-11T21:33:41Z) - Scaling Reasoning Efficiently via Relaxed On-Policy Distillation [49.39199261602195]
REOPOLD(Relaxed On-Policy Distillation)は、標準的なオンライン蒸留の厳密な模倣制約を緩和することで最適化を安定化するフレームワークである。
特に、REOPOLDは、混合型報酬クリッピング、エントロピーベースのトークンレベルのダイナミックサンプリング、および統一的な探索・縮小訓練戦略を通じて、教師の報酬を選択的に活用する。
論文 参考訳(メタデータ) (2026-03-11T16:26:52Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models [44.041109669153506]
On-Policy Self-Distillation (OPSD) は、教師と学生の両方がひとつのモデルで、異なるコンテキストを条件付けして機能するフレームワークである。
複数の数学的推論ベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2026-01-26T17:56:50Z) - Stable On-Policy Distillation through Adaptive Target Reformulation [7.361248172930405]
ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。
ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-12T02:57:39Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。