論文の概要: KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.02208v1
- Date: Mon, 02 Jun 2025 19:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.997422
- Title: KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning
- Title(参考訳): KDRL:統一知識蒸留と強化学習による学習後推論LLM
- Authors: Hongling Xu, Qi Zhu, Heyuan Deng, Jinpeng Li, Lu Hou, Yasheng Wang, Lifeng Shang, Ruifeng Xu, Fei Mi,
- Abstract要約: 教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。
まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
- 参考スコア(独自算出の注目度): 72.53466291156604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language model (LLM) post-training have leveraged two distinct paradigms to enhance reasoning capabilities: reinforcement learning (RL) and knowledge distillation (KD). While RL enables the emergence of complex reasoning behaviors, it often suffers from low sample efficiency when the initial policy struggles to explore high-reward trajectories. Conversely, KD improves learning efficiency via mimicking the teacher model but tends to generalize poorly to out-of-domain scenarios. In this work, we present \textbf{KDRL}, a \textit{unified post-training framework} that jointly optimizes a reasoning model through teacher supervision (KD) and self-exploration (RL). Specifically, KDRL leverages policy gradient optimization to simultaneously minimize the reverse Kullback-Leibler divergence (RKL) between the student and teacher distributions while maximizing the expected rule-based rewards. We first formulate a unified objective that integrates GRPO and KD, and systematically explore how different KL approximations, KL coefficients, and reward-guided KD strategies affect the overall post-training dynamics and performance. Empirical results on multiple reasoning benchmarks demonstrate that KDRL outperforms GRPO and various KD baselines while achieving a favorable balance between performance and reasoning token efficiency. These findings indicate that integrating KD and RL serves as an effective and efficient strategy to train reasoning LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)のポストトレーニングにおける最近の進歩は、強化学習(RL)と知識蒸留(KD)という2つの異なるパラダイムを活用して推論能力を高めている。
RLは複雑な推論行動の出現を可能にするが、初期方針が高次軌道の探索に苦しむ場合、しばしばサンプル効率の低下に悩まされる。
逆に、KDは教師モデルを模倣することで学習効率を向上するが、ドメイン外のシナリオをうまく一般化する傾向がある。
本稿では,教師の指導(KD)と自己探索(RL)を通じて推論モデルを共同で最適化する,‘textbf{KDRL}’という,‘textit{unified post-training framework’を提案する。
具体的には、KDRLはポリシー勾配の最適化を利用して、学生と教師の分布間の逆のクルバック・リーブラー分岐(RKL)を同時に最小化し、期待されるルールベースの報酬を最大化する。
まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
複数の推論ベンチマークによる実験結果から、KDRLはGRPOと様々なKDベースラインより優れ、性能と推論トークン効率のバランスが良好であることが示された。
これらの結果から,KDとRLの併用は,LLMを訓練するための効果的かつ効率的な戦略であることが示唆された。
関連論文リスト
- DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Practical Insights into Knowledge Distillation for Pre-Trained Models [6.085875355032475]
本研究では,事前学習モデルにおける知識蒸留(KD)プロセスの強化について検討する。
事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、KDの応用に関する包括的な理解は欠如している。
本研究は,標準KD,調整KD(最適化温度および重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。
論文 参考訳(メタデータ) (2024-02-22T19:07:08Z) - Extending Label Smoothing Regularization with Self-Knowledge
Distillation [11.009345791558601]
そこで我々は,LSR法をKD法に拡張し,よりソフトな温度を適用することにより,学習促進のためのアルゴリズムLsrKDを提案する。
LsrKDの性能をさらに向上するため,メモリ再生知識蒸留(MrKD)と呼ばれる自己蒸留法を開発した。
実験の結果,LsrKDは,LSRが非効率ないくつかのディープニューラルネットワークにおいて,LSRの性能を一貫したコストで向上できることがわかった。
論文 参考訳(メタデータ) (2020-09-11T04:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。