論文の概要: Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.02657v4
- Date: Sun, 08 Dec 2024 13:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:51:24.328321
- Title: Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models
- Title(参考訳): 大規模言語モデルにおける知識蒸留におけるKulback-Leiblerの多様性の再考
- Authors: Taiqiang Wu, Chaofan Tao, Jiahao Wang, Runming Yang, Zhe Zhao, Ngai Wong,
- Abstract要約: Kullback-Leiber分散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。
以前のアサーションとは対照的に、逆クルバック・リブラー(英語版)(RKL)の発散はモード探索であり、したがって平均シーキング前方クルバック・リブラー(英語版)(FKL)の発散よりも好ましい。
本稿では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。
- 参考スコア(独自算出の注目度): 18.870276152694245
- License:
- Abstract: Kullback-Leiber divergence has been widely used in Knowledge Distillation (KD) to compress Large Language Models (LLMs). Contrary to prior assertions that reverse Kullback-Leibler (RKL) divergence is mode-seeking and thus preferable over the mean-seeking forward Kullback-Leibler (FKL) divergence, this study empirically and theoretically demonstrates that neither mode-seeking nor mean-seeking properties manifest in KD for LLMs. Instead, RKL and FKL are found to share the same optimization objective and both converge after a sufficient number of epochs. However, due to practical constraints, LLMs are seldom trained for such an extensive number of epochs. Meanwhile, we further find that RKL focuses on the tail part of the distributions, while FKL focuses on the head part at the beginning epochs. Consequently, we propose a simple yet effective Adaptive Kullback-Leiber (AKL) divergence method, which adaptively allocates weights to combine FKL and RKL. Metric-based and GPT-4-based evaluations demonstrate that the proposed AKL outperforms the baselines across various tasks and improves the diversity and quality of generated responses. Codes are available at \href{https://github.com/wutaiqiang/LLM_KD_AKL}{github}.
- Abstract(参考訳): Kullback-Leiber の発散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。
逆のクルバック・リーブラー(英語版)(RKL)の発散はモード探索であり、従って平均探索前方のクルバック・リーブラー(英語版)(FKL)の発散よりも好ましいという以前の主張とは対照的に、本研究では、モード探索および平均探索特性がLLMのKDに現れないことを実証的かつ理論的に示す。
代わりに、RKL と FKL は同じ最適化目標を共有し、どちらも十分な数のエポックの後に収束する。
しかし、実際的な制約のため、LLMはそのような多くのエポックのために訓練されることはめったにない。
一方、RKLは分布の尾部に焦点を当てているのに対し、FKLは最初期の部分に焦点を当てている。
そこで本研究では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。
メトリックベースおよびGPT-4に基づく評価は、提案したAKLが様々なタスクにまたがってベースラインを上回り、生成した応答の多様性と品質を向上させることを示す。
コードは \href{https://github.com/wutaiqiang/LLM_KD_AKL}{github} で公開されている。
関連論文リスト
- Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - S-LoRA: Scalable Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、逐次的なタスクに事前訓練されたモデルのパワーを活用するための有望なアプローチとして現れてきた。
本稿では,LRAパラメータの方向と大きさの学習を段階的に分離する,CL(特にクラスインクリメンタルラーニング)のためのスケーラブル低ランク適応(S-LoRA)手法を提案する。
我々の理論的および実証的な分析により、S-LoRAは重なり合う低損失領域に収束する低損失軌道を辿る傾向にあり、CLの安定性と塑性のトレードオフは良好であることが示された。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。
単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。
この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文 参考訳(メタデータ) (2024-11-07T11:22:46Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - RL with KL penalties is better viewed as Bayesian inference [4.473139775790299]
我々は、言語モデルを強化学習ポリシーとして扱う際の課題を分析する。
これらの課題を避けるには、どのようにしてRLパラダイムを超えていく必要があるかを示します。
論文 参考訳(メタデータ) (2022-05-23T12:47:13Z) - Markovian Score Climbing: Variational Inference with KL(p||q) [16.661889249333676]
我々は「排他的クルバック・リーブラ」(KL)KL(p q)を確実に最小化する簡単なアルゴリズムを開発する。
この方法は包含KLの局所最適化に収束する。
Reweighted Wake-Sleep(英語版)やNeural Adaptive Monte Carlo(英語版)のような既存の手法に固有の体系的な誤りに悩まされない。
論文 参考訳(メタデータ) (2020-03-23T16:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。