論文の概要: Reinforcement-aware Knowledge Distillation for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.22495v1
- Date: Thu, 26 Feb 2026 00:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.452932
- Title: Reinforcement-aware Knowledge Distillation for LLM Reasoning
- Title(参考訳): LLM推論のための強化型知識蒸留
- Authors: Zhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto,
- Abstract要約: 強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
- 参考スコア(独自算出の注目度): 63.53679456364683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) post-training has recently driven major gains in long chain-of-thought reasoning large language models (LLMs), but the high inference cost of such models motivates distillation into smaller students. Most existing knowledge distillation (KD) methods are designed for supervised fine-tuning (SFT), relying on fixed teacher traces or teacher-student Kullback-Leibler (KL) divergence-based regularization. When combined with RL, these approaches often suffer from distribution mismatch and objective interference: teacher supervision may not align with the student's evolving rollout distribution, and the KL regularizer can compete with reward maximization and require careful loss balancing. To address these issues, we propose RL-aware distillation (RLAD), which performs selective imitation during RL -- guiding the student toward the teacher only when it improves the current policy update. Our core component, Trust Region Ratio Distillation (TRRD), replaces the teacher-student KL regularizer with a PPO/GRPO-style likelihood-ratio objective anchored to a teacher--old-policy mixture, yielding advantage-aware, trust-region-bounded distillation on student rollouts and naturally balancing exploration, exploitation, and imitation. Across diverse logic reasoning and math benchmarks, RLAD consistently outperforms offline distillation, standard GRPO, and KL-based on-policy teacher-student knowledge distillation.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は近年, 大規模言語モデル (LLM) の長鎖推論において大きな進歩を遂げている。
既存の知識蒸留(KD)法の多くは、教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存して、教師による微調整(SFT)のために設計されている。
教師の監督は、学生の展開するロールアウト分布と一致せず、KL正規化器は報酬の最大化と競合し、注意深い損失バランスを必要とする。
これらの課題に対処するため,RL において選択的な模倣を行う RL-aware 蒸留 (RLAD) を提案する。
我々の中核的な構成要素である信頼地域比蒸留(TRRD)は、教師が学習するKLレギュレータをPPO/GRPOスタイルの確率比目標に置き換え、教師と政治の混合に固定し、学生のロールアウトに有利な、信頼領域境界の蒸留を施し、探索、搾取、模倣を自然にバランスさせる。
様々な論理推論と数学のベンチマークにより、RLADはオフライン蒸留、標準GRPO、KLベースのオンライン教師/学生の知識蒸留を一貫して上回っている。
関連論文リスト
- Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - REDistill: Robust Estimator Distillation for Balancing Robustness and Efficiency [0.0]
本稿では、ロバスト統計に基づく原則化されたフレームワークであるREDistillを紹介する。
レディスティルは標準のKD目標をKL分散の一般化であるパワー分散損失に置き換える。
CIFAR-100 と ImageNet-1k の実験では、REDistill は多様な教師/学生アーキテクチャにおける生徒の精度を一貫して向上することを示した。
論文 参考訳(メタデータ) (2026-02-04T15:50:53Z) - Reinforcement Learning Teachers of Test Time Scaling [21.551446057221185]
LMを推論する主要なユースケースは、新しい学生を蒸留し、将来のRLイテレーションを冷静に開始する教師として機能することである。
我々は,RLの探究課題を回避するために,RLT(Reinforcement-Learned Teachers)の新たなクラスを育成する枠組みを導入する。
RLTは、各問題に対する質問と解決の両方で促され、生徒に合った詳細な説明で単に「接続する」ことを任務とする。
論文 参考訳(メタデータ) (2025-06-10T02:53:24Z) - KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning [72.53466291156604]
教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。
まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-02T19:46:41Z) - Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning [63.888013006686364]
教師による微調整(SFT)による教師から生徒への推論経路の蒸留は、大規模言語モデル(LLM)の推論能力を向上させるショートカットを提供する。
GSRM(Generative Structure Reward Model)による強化学習に基づく蒸留フレームワークRLKDを提案する。
GSRMは、推論パスを複数のメタ推論解決ステップに変換し、報酬を計算して、学生と教師の推論の構造的アライメントを測定する。
論文 参考訳(メタデータ) (2025-05-22T02:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。