論文の概要: Diversity-Aware Reverse Kullback-Leibler Divergence for Large Language Model Distillation
- arxiv url: http://arxiv.org/abs/2604.00223v1
- Date: Tue, 31 Mar 2026 20:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.714462
- Title: Diversity-Aware Reverse Kullback-Leibler Divergence for Large Language Model Distillation
- Title(参考訳): 大規模言語モデル蒸留のための多様性を考慮したリバース・カルバック・リーブラー分岐法
- Authors: Hoang-Chau Luong, Dat Ba Tran, Lingwei Chen,
- Abstract要約: 本稿では、この勾配効果を除去し、RKLの最適化の利点を保ちつつ、非目標監視を強化するダイバーシティ対応RKL(DRKL)を提案する。
DRKLは、FKL、RKL、その他の最先端の蒸留目標を一貫して上回り、優れた性能と多様性のトレードオフを達成している。
- 参考スコア(独自算出の注目度): 6.256286464835529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reverse Kullback-Leibler (RKL) divergence has recently emerged as the preferred objective for large language model (LLM) distillation, consistently outperforming forward KL (FKL), particularly in regimes with large vocabularies and significant teacher-student capacity mismatch, where RKL focuses learning on dominant modes rather than enforcing dense alignment. However, RKL introduces a structural limitation that drives the student toward overconfident predictions. We first provide an analysis of RKL by decomposing its gradients into target and non-target components, and show that non-target gradients consistently push the target logit upward even when the student already matches the teacher, thereby reducing output diversity. In addition, RKL provides weak supervision over non-target classes, leading to poor tail alignment. To address these issues, we propose Diversity-aware RKL (DRKL), which removes this gradient effect and strengthens non-target supervision while preserving the optimization benefits of RKL. Extensive experiments across datasets and model families demonstrate that DRKL consistently outperforms FKL, RKL, and other state-of-the-art distillation objectives, achieving better performance and a superior fidelity-diversity trade-off.
- Abstract(参考訳): Reverse Kullback-Leibler (RKL) の発散は, 大規模言語モデル (LLM) 蒸留の好適な目的として最近出現し, 特に大きな語彙を持ち, 有能な教師/学生の能力ミスマッチを持つ体制では, 高いアライメントを強制するのではなく, 支配的なモードを学習することに重点を置いている。
しかし、RKLは、学生を過信的な予測へと導く構造的制限を導入する。
まず、RKLの勾配を目標成分と非目標成分に分解して分析し、教師とすでに一致した場合でも目標勾配を常に上向きにし、出力の多様性を低下させることで、RKLの分析を行う。
さらに、RKLは非ターゲットクラスに対する弱い監督を提供し、尾のアライメントが低下する。
これらの課題に対処するため、我々は、この勾配効果を排除し、RKLの最適化利益を維持しつつ、非目標監視を強化するダイバーシティ対応RKL(DRKL)を提案する。
データセットとモデルファミリの広範な実験により、DRKLはFKL、RKL、その他の最先端の蒸留目標を一貫して上回り、より良い性能と優れた忠実度と多様性のトレードオフを実現している。
関連論文リスト
- Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Stable On-Policy Distillation through Adaptive Target Reformulation [7.361248172930405]
ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。
ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-12T02:57:39Z) - A Comedy of Estimators: On KL Regularization in RL Training of LLMs [81.7906270099878]
強化学習(RL)は,大規模言語モデル(LLM)の推論性能を大幅に向上させる
LLMトレーニングのRLの目的は、トレーニングされたポリシーと参照ポリシーの間の逆のKL(Kullback-Leibler)分岐である正規化項を含む。
近年の研究では、KL正則化の実施が目的の正しい勾配を与えていないことが示されており、目的と実施の相違が生じている。
いくつかの推定器構成の勾配について検討し、設計選択が勾配バイアスをどう形成するかを明らかにする。
論文 参考訳(メタデータ) (2025-12-26T04:20:58Z) - Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文 参考訳(メタデータ) (2025-03-11T04:43:33Z) - Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models [18.870276152694245]
Kullback-Leiber分散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。
以前のアサーションとは対照的に、逆クルバック・リブラー(英語版)(RKL)の発散はモード探索であり、したがって平均シーキング前方クルバック・リブラー(英語版)(FKL)の発散よりも好ましい。
本稿では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:40:17Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。