論文の概要: Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation
- arxiv url: http://arxiv.org/abs/2602.12125v1
- Date: Thu, 12 Feb 2026 16:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.919954
- Title: Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation
- Title(参考訳): 教師を超えて学ぶ:リワード外挿による一般オンポリシィ蒸留
- Authors: Wenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin,
- Abstract要約: オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
- 参考スコア(独自算出の注目度): 57.524909883706556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD), which aligns the student with the teacher's logit distribution on student-generated trajectories, has demonstrated strong empirical gains in improving student performance and often outperforms off-policy distillation and reinforcement learning (RL) paradigms. In this work, we first theoretically show that OPD is a special case of dense KL-constrained RL where the reward function and the KL regularization are always weighted equally and the reference model can by any model. Then, we propose the Generalized On-Policy Distillation (G-OPD) framework, which extends the standard OPD objective by introducing a flexible reference model and a reward scaling factor that controls the relative weight of the reward term against the KL regularization. Through comprehensive experiments on math reasoning and code generation tasks, we derive two novel insights: (1) Setting the reward scaling factor to be greater than 1 (i.e., reward extrapolation), which we term ExOPD, consistently improves over standard OPD across a range of teacher-student size pairings. In particular, in the setting where we merge the knowledge from different domain experts, obtained by applying domain-specific RL to the same student model, back into the original student, ExOPD enables the student to even surpass the teacher's performance boundary and outperform the domain teachers. (2) Building on ExOPD, we further find that in the strong-to-weak distillation setting (i.e., distilling a smaller student from a larger teacher), performing reward correction by choosing the reference model as the teacher's base model before RL yields a more accurate reward signal and further improves distillation performance. However, this choice assumes access to the teacher's pre-RL variant and incurs more computational overhead. We hope our work offers new insights for future research on OPD.
- Abstract(参考訳): オンライン蒸留(OPD)は, 学生が生み出す軌跡に教師のロジット分布と整合し, 生徒のパフォーマンス向上に強い効果を示し, 外部蒸留や強化学習(RL)のパラダイムを上回りつつある。
この研究において、OPDは、報酬関数とKL正規化が常に等しく重み付けされ、参照モデルが任意のモデルで可能であるような、高密度なKL制約付きRLの特別な場合であることを示す。
そこで本稿では,KL正則化に対する報酬項の相対重みを制御するフレキシブルリファレンスモデルと報酬スケーリング係数を導入することにより,標準PD目標を拡張する汎用オンポリシィ蒸留(G-OPD)フレームワークを提案する。
算数推論とコード生成タスクに関する総合的な実験を通じて、(1)報奨スケーリング係数を1より大きいものに設定する(すなわち、報奨外挿)。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは教師のパフォーマンス境界を超え、ドメイン教師より優れています。
2) ExOPDを基盤として,RLがより正確な報奨信号を得る前に,教師のベースモデルとして参照モデルを選択して報酬補正を行い,さらに蒸留性能の向上を図る。
しかし、この選択は教師のRL前の変種へのアクセスを前提とし、より計算オーバーヘッドを発生させる。
OPDに関する今後の研究に新たな洞察を提供することを期待しています。
関連論文リスト
- Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning [48.041170200238206]
DASD-4B-Thinkingは軽量で高機能で完全なオープンソース推論モデルである。
これは、数学、科学的推論、コード生成の挑戦的なベンチマークにおいて、同等規模のオープンソースのモデル間でSOTA性能を達成する。
論文 参考訳(メタデータ) (2026-01-14T02:43:17Z) - More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - Preference Distillation via Value based Reinforcement Learning [16.165599808093408]
我々は,教師モデルの値関数から補助的な報酬を付与し,ソフトガイドを提供する,textitTeacher Value-based Knowledge Distillation (TVKD)を提案する。
TVKDは標準のDPOトレーニングフレームワークに統合することができ、追加のロールアウトを必要としない。
実験の結果,TVKDは様々なベンチマークやモデルサイズで連続的に性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-09-21T07:52:28Z) - Enhancing Reasoning Capabilities in SLMs with Reward Guided Dataset Distillation [0.0]
本稿では,報酬誘導型データセット蒸留フレームワークAdvDistillを提案する。
我々は,教師からの複数の世代(応答)を各プロンプトに利用し,ルールベースの検証に基づいて報酬を割り当てる。
これらの様々な、通常は分散された報酬は、学生モデルを訓練する際の重みとなる。
論文 参考訳(メタデータ) (2025-06-25T20:07:47Z) - Biased Teacher, Balanced Student [0.0]
Long-Tailed Knowledge Distillation (LTKD)は、クラス不均衡シナリオに適した新しいフレームワークである。
CIFAR-100-LT、TinyImageNet-LT、ImageNet-LTの実験は、LTKDが既存のKDメソッドより一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-06-23T10:46:44Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。