Fugu-MT 論文翻訳(概要): Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models

論文の概要: Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models

arxiv url: http://arxiv.org/abs/2404.02657v1
Date: Wed, 3 Apr 2024 11:40:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 17:40:49.822291
Title: Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models
Title（参考訳）: 大規模言語モデルにおける知識蒸留におけるKulback-Leiblerの多様性の再考
Authors: Taiqiang Wu, Chaofan Tao, Jiahao Wang, Zhe Zhao, Ngai Wong,
Abstract要約: Kullback-Leiber分散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。以前のアサーションとは対照的に、逆クルバック・リブラー(英語版)(RKL)の発散はモード探索であり、したがって平均シーキング前方クルバック・リブラー(英語版)(FKL)の発散よりも好ましい。本稿では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。
参考スコア（独自算出の注目度）: 19.99524316407591
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Kullback-Leiber divergence has been widely used in Knowledge Distillation (KD) to compress Large Language Models (LLMs). Contrary to prior assertions that reverse Kullback-Leibler (RKL) divergence is mode-seeking and thus preferable over the mean-seeking forward Kullback-Leibler (FKL) divergence, this study empirically and theoretically demonstrates that neither mode-seeking nor mean-seeking properties manifest in KD for LLMs. Instead, RKL and FKL are found to share the same optimization objective and both converge after a sufficient number of epochs. However, due to practical constraints, LLMs are seldom trained for such an extensive number of epochs. Meanwhile, we further find that RKL focuses on the tail part of the distributions, while FKL focuses on the head part at the beginning epochs. Consequently, we propose a simple yet effective Adaptive Kullback-Leiber (AKL) divergence method, which adaptively allocates weights to combine FKL and RKL. Metric-based and GPT-4-based evaluations demonstrate that the proposed AKL outperforms the baselines across various tasks and improves the diversity and quality of generated responses.
Abstract（参考訳）: Kullback-Leiber の発散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。逆のクルバック・リーブラー(英語版)(RKL)の発散はモード探索であり、従って平均探索前方のクルバック・リーブラー(英語版)(FKL)の発散よりも好ましいという以前の主張とは対照的に、本研究では、モード探索および平均探索特性がLLMのKDに現れないことを実証的かつ理論的に示す。代わりに、RKL と FKL は同じ最適化目標を共有し、どちらも十分な数のエポックの後に収束する。しかし、実際的な制約のため、LLMはそのような多くのエポックのために訓練されることはめったにない。一方、RKLは分布の尾部に焦点を当てているのに対し、FKLは最初期の部分に焦点を当てている。そこで本研究では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。メトリックベースおよびGPT-4に基づく評価は、提案したAKLが様々なタスクにまたがってベースラインを上回り、生成した応答の多様性と品質を向上させることを示す。

関連論文リスト

A Comedy of Estimators: On KL Regularization in RL Training of LLMs [81.7906270099878]
強化学習(RL)は,大規模言語モデル(LLM)の推論性能を大幅に向上させる LLMトレーニングのRLの目的は、トレーニングされたポリシーと参照ポリシーの間の逆のKL(Kullback-Leibler)分岐である正規化項を含む。近年の研究では、KL正則化の実施が目的の正しい勾配を与えていないことが示されており、目的と実施の相違が生じている。いくつかの推定器構成の勾配について検討し、設計選択が勾配バイアスをどう形成するかを明らかにする。
論文参考訳（メタデータ） (2025-12-26T04:20:58Z)
A Theoretical Lens for RL-Tuned Language Models via Energy-Based Models [9.324642081509756]
KL正規化強化学習によって訓練された大規模言語モデル(LLM)は、強い指示、自己補正、推論能力を示す。我々は、最適KL規則化ポリシの閉形式エネルギーベースモデル(EBM)構造を利用して、LLMの統一的変分解析を行う。
論文参考訳（メタデータ） (2025-12-21T13:28:58Z)
KL-Regularized Reinforcement Learning is Designed to Mode Collapse [29.23421728376746]
ここでは,KLの逆方向選択が最適対象分布の族を決定することを示す。これらの洞察を利用して、単純でスケーラブルで理論的に正当化されたアルゴリズムを構築します。
論文参考訳（メタデータ） (2025-10-23T17:59:40Z)
The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文参考訳（メタデータ） (2025-09-09T06:34:32Z)
ToDi: Token-wise Distillation via Fine-Grained Divergence Control [3.6152232645741025]
Token-wise Distillation (ToDi) は、Sigmoid-based weighting function を用いてトークンごとのフォワードKLとリバースKLを適応的に結合する新しい方法である。 ToDiは、均一またはより粒度の低い戦略を用いて、最近の蒸留ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-05-22T06:51:16Z)
Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks [4.943844247308908]
エネルギー効率のよい計算手法としてスパイキングニューラルネットワーク(SNN)が登場している。 SNNは、ニューラルネットワーク(ANN)と比較して、しばしばパフォーマンスギャップを示す
論文参考訳（メタデータ） (2025-04-29T05:36:32Z)
Better Estimation of the KL Divergence Between Language Models [58.7977683502207]
Kullback-Leibler (KL) の言語モデル間のばらつきを推定することは、多くの応用がある。また, 標準モンテカルロ推定器の偏差が, 標準モンテカルロ推定器の偏差以下であるようなラオ-ブラックウェル化推定器を導入する。
論文参考訳（メタデータ） (2025-04-14T18:40:02Z)
Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。 DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文参考訳（メタデータ） (2025-03-11T04:43:33Z)
Sharp Analysis for KL-Regularized Contextual Bandits and RLHF [52.519416266840814]
Reverse-Kullback-Leibler (KL) 正則化は、強化学習におけるポリシー最適化を強化する主要な手法である。単純な2段階混合サンプリング戦略は, カバー係数に付加的な依存しか持たずに, サンプルの複雑さを達成できることが示される。この結果は,より効率的なRLHFアルゴリズムの設計に光を当て,KL正規化とRLHFにおけるデータカバレッジの役割を包括的に理解するものである。
論文参考訳（メタデータ） (2024-11-07T11:22:46Z)
Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文参考訳（メタデータ） (2024-06-28T09:23:40Z)
Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文参考訳（メタデータ） (2024-02-27T01:13:58Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)
Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文参考訳（メタデータ） (2023-05-23T11:17:45Z)
RL with KL penalties is better viewed as Bayesian inference [4.473139775790299]
我々は、言語モデルを強化学習ポリシーとして扱う際の課題を分析する。これらの課題を避けるには、どのようにしてRLパラダイムを超えていく必要があるかを示します。
論文参考訳（メタデータ） (2022-05-23T12:47:13Z)
Variational Refinement for Importance Sampling Using the Forward Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文参考訳（メタデータ） (2021-06-30T11:00:24Z)
Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文参考訳（メタデータ） (2020-03-31T10:55:06Z)
Markovian Score Climbing: Variational Inference with KL(p||q) [16.661889249333676]
我々は「排他的クルバック・リーブラ」(KL)KL(p q)を確実に最小化する簡単なアルゴリズムを開発する。この方法は包含KLの局所最適化に収束する。 Reweighted Wake-Sleep(英語版)やNeural Adaptive Monte Carlo(英語版)のような既存の手法に固有の体系的な誤りに悩まされない。
論文参考訳（メタデータ） (2020-03-23T16:38:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。