論文の概要: Sinkhorn Distance Minimization for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2402.17110v1
- Date: Tue, 27 Feb 2024 01:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:10:45.771324
- Title: Sinkhorn Distance Minimization for Knowledge Distillation
- Title(参考訳): 知識蒸留のためのシンクホーン距離最小化
- Authors: Xiao Cui, Yulei Qin, Yuting Gao, Enwei Zhang, Zihan Xu, Tong Wu, Ke
Li, Xing Sun, Wengang Zhou and Houqiang Li
- Abstract要約: 知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
- 参考スコア(独自算出の注目度): 97.64216712016571
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge distillation (KD) has been widely adopted to compress large
language models (LLMs). Existing KD methods investigate various divergence
measures including the Kullback-Leibler (KL), reverse Kullback-Leibler (RKL),
and Jensen-Shannon (JS) divergences. However, due to limitations inherent in
their assumptions and definitions, these measures fail to deliver effective
supervision when few distribution overlap exists between the teacher and the
student. In this paper, we show that the aforementioned KL, RKL, and JS
divergences respectively suffer from issues of mode-averaging, mode-collapsing,
and mode-underestimation, which deteriorates logits-based KD for diverse NLP
tasks. We propose the Sinkhorn Knowledge Distillation (SinKD) that exploits the
Sinkhorn distance to ensure a nuanced and precise assessment of the disparity
between teacher and student distributions. Besides, profit by properties of the
Sinkhorn metric, we can get rid of sample-wise KD that restricts the perception
of divergence in each teacher-student sample pair. Instead, we propose a
batch-wise reformulation to capture geometric intricacies of distributions
across samples in the high-dimensional space. Comprehensive evaluation on GLUE
and SuperGLUE, in terms of comparability, validity, and generalizability,
highlights our superiority over state-of-the-art methods on all kinds of LLMs
with encoder-only, encoder-decoder, and decoder-only architectures.
- Abstract(参考訳): 知識蒸留(kd)は大規模言語モデル(llm)の圧縮に広く採用されている。
既存のKD法では、Kllback-Leibler (KL)、Reverse Kullback-Leibler (RKL)、Jensen-Shannon (JS)などがある。
しかし, 前提や定義に固有の制約のため, 教師と生徒の間には分布の重複が少ないため, 効果的な監督が得られない。
本稿では, 上記のKL, RKL, JSの相違が, 多様なNLPタスクにおいてロジットベースのKDを劣化させるモード緩和, モード崩壊, モード下降の問題をそれぞれ抱えていることを示す。
教師と生徒の分布の違いを微妙かつ正確に評価するために, シンクホーン距離を利用したシンクホーン知識蒸留(sinkd)を提案する。
加えて、シンクホーン計量の特性による利益は、各教師と生徒のサンプルペアにおける発散の知覚を制限するサンプルワイズkdを取り除くことができる。
代わりに,高次元空間におけるサンプル間の分布の幾何学的複雑度を捉えるバッチ分解法を提案する。
GLUE と SuperGLUE の総合評価では,エンコーダのみ,エンコーダのみ,デコーダのみのアーキテクチャで,あらゆる種類の LLM 上での最先端手法よりも,コンパラビリティ,妥当性,一般化性の面で優位性が強調されている。
関連論文リスト
- Kendall's $τ$ Coefficient for Logits Distillation [33.77389987117822]
ランクケンドール知識蒸留(RKKD)と呼ばれるKendallの$tau$係数に基づくランキング損失を提案する。
RKKDは、学生ロジットのチャネル値の順序を制約することにより、より小さな評価チャネルへの注意のバランスをとる。
我々のRKKDは, 多様な知識蒸留ベースラインの性能を向上し, 複数の教師と学生のアーキテクチャの組み合わせで幅広い改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-09-26T13:21:02Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Kolmogorov-Smirnov GAN [52.36633001046723]
我々は、KSGAN(Kolmogorov-Smirnov Generative Adversarial Network)という新しい深層生成モデルを提案する。
既存のアプローチとは異なり、KSGANはKS距離の最小化として学習プロセスを定式化している。
論文 参考訳(メタデータ) (2024-06-28T14:30:14Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Dual-Space Knowledge Distillation for Large Language Models [39.798007795604676]
KDのための2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。
我々のフレームワークは、現在のフレームワークのようなKDの様々な距離関数と互換性があるだけでなく、語彙に関係なく、任意の2つのLLM間のKDもサポートしています。
論文 参考訳(メタデータ) (2024-06-25T07:25:15Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Imitation Learning with Sinkhorn Distances [12.161649672131286]
本研究では, 占領対策間のシンクホーン距離の最小化として, 模倣学習を定式化して, トラクタブルソリューションを提案する。
提案手法は,多くの MuJoCo 実験において,報奨距離とシンクホーン距離距離の両方を用いて評価する。
論文 参考訳(メタデータ) (2020-08-20T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。