Fugu-MT 論文翻訳(概要): Sinkhorn Distance Minimization for Knowledge Distillation

論文の概要: Sinkhorn Distance Minimization for Knowledge Distillation

arxiv url: http://arxiv.org/abs/2402.17110v1
Date: Tue, 27 Feb 2024 01:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 18:10:45.771324
Title: Sinkhorn Distance Minimization for Knowledge Distillation
Title（参考訳）: 知識蒸留のためのシンクホーン距離最小化
Authors: Xiao Cui, Yulei Qin, Yuting Gao, Enwei Zhang, Zihan Xu, Tong Wu, Ke Li, Xing Sun, Wengang Zhou and Houqiang Li
Abstract要約: 知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
参考スコア（独自算出の注目度）: 97.64216712016571
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Knowledge distillation (KD) has been widely adopted to compress large language models (LLMs). Existing KD methods investigate various divergence measures including the Kullback-Leibler (KL), reverse Kullback-Leibler (RKL), and Jensen-Shannon (JS) divergences. However, due to limitations inherent in their assumptions and definitions, these measures fail to deliver effective supervision when few distribution overlap exists between the teacher and the student. In this paper, we show that the aforementioned KL, RKL, and JS divergences respectively suffer from issues of mode-averaging, mode-collapsing, and mode-underestimation, which deteriorates logits-based KD for diverse NLP tasks. We propose the Sinkhorn Knowledge Distillation (SinKD) that exploits the Sinkhorn distance to ensure a nuanced and precise assessment of the disparity between teacher and student distributions. Besides, profit by properties of the Sinkhorn metric, we can get rid of sample-wise KD that restricts the perception of divergence in each teacher-student sample pair. Instead, we propose a batch-wise reformulation to capture geometric intricacies of distributions across samples in the high-dimensional space. Comprehensive evaluation on GLUE and SuperGLUE, in terms of comparability, validity, and generalizability, highlights our superiority over state-of-the-art methods on all kinds of LLMs with encoder-only, encoder-decoder, and decoder-only architectures.
Abstract（参考訳）: 知識蒸留(kd)は大規模言語モデル(llm)の圧縮に広く採用されている。既存のKD法では、Kllback-Leibler (KL)、Reverse Kullback-Leibler (RKL)、Jensen-Shannon (JS)などがある。しかし, 前提や定義に固有の制約のため, 教師と生徒の間には分布の重複が少ないため, 効果的な監督が得られない。本稿では, 上記のKL, RKL, JSの相違が, 多様なNLPタスクにおいてロジットベースのKDを劣化させるモード緩和, モード崩壊, モード下降の問題をそれぞれ抱えていることを示す。教師と生徒の分布の違いを微妙かつ正確に評価するために, シンクホーン距離を利用したシンクホーン知識蒸留(sinkd)を提案する。加えて、シンクホーン計量の特性による利益は、各教師と生徒のサンプルペアにおける発散の知覚を制限するサンプルワイズkdを取り除くことができる。代わりに,高次元空間におけるサンプル間の分布の幾何学的複雑度を捉えるバッチ分解法を提案する。 GLUE と SuperGLUE の総合評価では,エンコーダのみ,エンコーダのみ,デコーダのみのアーキテクチャで,あらゆる種類の LLM 上での最先端手法よりも,コンパラビリティ,妥当性,一般化性の面で優位性が強調されている。

関連論文リスト

A Dual-Space Framework for General Knowledge Distillation of Large Language Models [98.73585104789217]
知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。現在のWhite-box KDフレームワークには2つの制限がある。我々は,教師の予測ヘッドとKDの学生モデルを統合する,二空間知識蒸留(DSKD)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-15T17:38:47Z)
Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。 DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文参考訳（メタデータ） (2025-03-11T04:43:33Z)
Kendall's $τ$ Coefficient for Logits Distillation [33.77389987117822]
ランクケンドール知識蒸留(RKKD)と呼ばれるKendallの$tau$係数に基づくランキング損失を提案する。 RKKDは、学生ロジットのチャネル値の順序を制約することにより、より小さな評価チャネルへの注意のバランスをとる。我々のRKKDは, 多様な知識蒸留ベースラインの性能を向上し, 複数の教師と学生のアーキテクチャの組み合わせで幅広い改善が期待できることを示す。
論文参考訳（メタデータ） (2024-09-26T13:21:02Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
Kolmogorov-Smirnov GAN [52.36633001046723]
我々は、KSGAN(Kolmogorov-Smirnov Generative Adversarial Network)という新しい深層生成モデルを提案する。既存のアプローチとは異なり、KSGANはKS距離の最小化として学習プロセスを定式化している。
論文参考訳（メタデータ） (2024-06-28T14:30:14Z)
Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文参考訳（メタデータ） (2024-06-28T09:23:40Z)
Dual-Space Knowledge Distillation for Large Language Models [39.798007795604676]
KDのための2つのモデルの出力空間を統一する二空間知識蒸留(DSKD)フレームワークを提案する。我々のフレームワークは、現在のフレームワークのようなKDの様々な距離関数と互換性があるだけでなく、語彙に関係なく、任意の2つのLLM間のKDもサポートしています。
論文参考訳（メタデータ） (2024-06-25T07:25:15Z)
Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models [18.870276152694245]
Kullback-Leiber分散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。以前のアサーションとは対照的に、逆クルバック・リブラー(英語版)(RKL)の発散はモード探索であり、したがって平均シーキング前方クルバック・リブラー(英語版)(FKL)の発散よりも好ましい。本稿では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。
論文参考訳（メタデータ） (2024-04-03T11:40:17Z)
Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文参考訳（メタデータ） (2023-05-23T11:17:45Z)
Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。 KL分散損失は,タウ増加時のロジットマッチングと,タウが0。特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文参考訳（メタデータ） (2021-05-19T04:40:53Z)
KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文参考訳（メタデータ） (2021-05-10T08:15:26Z)
Imitation Learning with Sinkhorn Distances [12.161649672131286]
本研究では, 占領対策間のシンクホーン距離の最小化として, 模倣学習を定式化して, トラクタブルソリューションを提案する。提案手法は,多くの MuJoCo 実験において,報奨距離とシンクホーン距離距離の両方を用いて評価する。
論文参考訳（メタデータ） (2020-08-20T19:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。