論文の概要: Sinkhorn Distance Minimization for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2402.17110v1
- Date: Tue, 27 Feb 2024 01:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:10:45.771324
- Title: Sinkhorn Distance Minimization for Knowledge Distillation
- Title(参考訳): 知識蒸留のためのシンクホーン距離最小化
- Authors: Xiao Cui, Yulei Qin, Yuting Gao, Enwei Zhang, Zihan Xu, Tong Wu, Ke
Li, Xing Sun, Wengang Zhou and Houqiang Li
- Abstract要約: 知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
- 参考スコア(独自算出の注目度): 97.64216712016571
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge distillation (KD) has been widely adopted to compress large
language models (LLMs). Existing KD methods investigate various divergence
measures including the Kullback-Leibler (KL), reverse Kullback-Leibler (RKL),
and Jensen-Shannon (JS) divergences. However, due to limitations inherent in
their assumptions and definitions, these measures fail to deliver effective
supervision when few distribution overlap exists between the teacher and the
student. In this paper, we show that the aforementioned KL, RKL, and JS
divergences respectively suffer from issues of mode-averaging, mode-collapsing,
and mode-underestimation, which deteriorates logits-based KD for diverse NLP
tasks. We propose the Sinkhorn Knowledge Distillation (SinKD) that exploits the
Sinkhorn distance to ensure a nuanced and precise assessment of the disparity
between teacher and student distributions. Besides, profit by properties of the
Sinkhorn metric, we can get rid of sample-wise KD that restricts the perception
of divergence in each teacher-student sample pair. Instead, we propose a
batch-wise reformulation to capture geometric intricacies of distributions
across samples in the high-dimensional space. Comprehensive evaluation on GLUE
and SuperGLUE, in terms of comparability, validity, and generalizability,
highlights our superiority over state-of-the-art methods on all kinds of LLMs
with encoder-only, encoder-decoder, and decoder-only architectures.
- Abstract(参考訳): 知識蒸留(kd)は大規模言語モデル(llm)の圧縮に広く採用されている。
既存のKD法では、Kllback-Leibler (KL)、Reverse Kullback-Leibler (RKL)、Jensen-Shannon (JS)などがある。
しかし, 前提や定義に固有の制約のため, 教師と生徒の間には分布の重複が少ないため, 効果的な監督が得られない。
本稿では, 上記のKL, RKL, JSの相違が, 多様なNLPタスクにおいてロジットベースのKDを劣化させるモード緩和, モード崩壊, モード下降の問題をそれぞれ抱えていることを示す。
教師と生徒の分布の違いを微妙かつ正確に評価するために, シンクホーン距離を利用したシンクホーン知識蒸留(sinkd)を提案する。
加えて、シンクホーン計量の特性による利益は、各教師と生徒のサンプルペアにおける発散の知覚を制限するサンプルワイズkdを取り除くことができる。
代わりに,高次元空間におけるサンプル間の分布の幾何学的複雑度を捉えるバッチ分解法を提案する。
GLUE と SuperGLUE の総合評価では,エンコーダのみ,エンコーダのみ,デコーダのみのアーキテクチャで,あらゆる種類の LLM 上での最先端手法よりも,コンパラビリティ,妥当性,一般化性の面で優位性が強調されている。
関連論文リスト
- Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - Combating Representation Learning Disparity with Geometric Harmonization [50.29859682439571]
本稿では,表現学習におけるカテゴリレベルの均一性を促進するために,新しい幾何調和法を提案する。
我々の提案はSSLの設定を変更せず、低コストで既存のメソッドに容易に統合できる。
論文 参考訳(メタデータ) (2023-10-26T17:41:11Z) - Contrastive Knowledge Amalgamation for Unsupervised Image Classification [2.6392087010521728]
Contrastive Knowledge Amalgamation (CKA) は、複数の教師モデルから協調目的を扱うためのコンパクトな学生モデルを学ぶことを目的としている。
クラス内モデルとクラス間モデルとの対比損失は、異なるクラスの表現間の距離を拡大するように設計されている。
このアライメント損失は、共通表現空間における教師/学生モデルのサンプルレベルの分布差を最小限に抑えるために導入された。
論文 参考訳(メタデータ) (2023-07-27T11:21:14Z) - Understanding the Overfitting of the Episodic Meta-training [21.127324454759744]
本研究では,教員モデルから新たな一般化知識を維持するために,知識蒸留技術を導入する。
具体的には,メタトレーニングにおいて,教師モデルを最高の検証精度を持つモデルとして選択する。
本稿では,メタトレーニングのためのNearest Neighbor Symmetric Kullback-Leibler(NNSKL)のばらつきを提案し,知識蒸留技術の限界を推し進める。
論文 参考訳(メタデータ) (2023-06-29T11:55:37Z) - Knowledge Distillation of Large Language Models [123.36847200257805]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Decoupled Kullback-Leibler Divergence Loss [75.31157286595517]
Kullback-Leibler (KL) 分割損失は、DKL (Dupled Kullback-Leibler) 分割損失と同値である。
クラス内整合性正規化のためのグローバル情報をDKLに導入する。
提案手法は両タスクの最先端性能を実現し,実用的メリットを実証する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Imitation Learning with Sinkhorn Distances [12.161649672131286]
本研究では, 占領対策間のシンクホーン距離の最小化として, 模倣学習を定式化して, トラクタブルソリューションを提案する。
提案手法は,多くの MuJoCo 実験において,報奨距離とシンクホーン距離距離の両方を用いて評価する。
論文 参考訳(メタデータ) (2020-08-20T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。