論文の概要: Kendall's $τ$ Coefficient for Logits Distillation
- arxiv url: http://arxiv.org/abs/2409.17823v1
- Date: Thu, 26 Sep 2024 13:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 19:42:02.015858
- Title: Kendall's $τ$ Coefficient for Logits Distillation
- Title(参考訳): ケンドールの対物蒸留におけるτ$係数
- Authors: Yuchen Guan, Runxi Cheng, Kang Liu, Chun Yuan,
- Abstract要約: ランクケンドール知識蒸留(RKKD)と呼ばれるKendallの$tau$係数に基づくランキング損失を提案する。
RKKDは、学生ロジットのチャネル値の順序を制約することにより、より小さな評価チャネルへの注意のバランスをとる。
我々のRKKDは, 多様な知識蒸留ベースラインの性能を向上し, 複数の教師と学生のアーキテクチャの組み合わせで幅広い改善が期待できることを示す。
- 参考スコア(独自算出の注目度): 33.77389987117822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation typically employs the Kullback-Leibler (KL) divergence to constrain the student model's output to match the soft labels provided by the teacher model exactly. However, sometimes the optimization direction of the KL divergence loss is not always aligned with the task loss, where a smaller KL divergence could lead to erroneous predictions that diverge from the soft labels. This limitation often results in suboptimal optimization for the student. Moreover, even under temperature scaling, the KL divergence loss function tends to overly focus on the larger-valued channels in the logits, disregarding the rich inter-class information provided by the multitude of smaller-valued channels. This hard constraint proves too challenging for lightweight students, hindering further knowledge distillation. To address this issue, we propose a plug-and-play ranking loss based on Kendall's $\tau$ coefficient, called Rank-Kendall Knowledge Distillation (RKKD). RKKD balances the attention to smaller-valued channels by constraining the order of channel values in student logits, providing more inter-class relational information. The rank constraint on the top-valued channels helps avoid suboptimal traps during optimization. We also discuss different differentiable forms of Kendall's $\tau$ coefficient and demonstrate that the proposed ranking loss function shares a consistent optimization objective with the KL divergence. Extensive experiments on the CIFAR-100 and ImageNet datasets show that our RKKD can enhance the performance of various knowledge distillation baselines and offer broad improvements across multiple teacher-student architecture combinations.
- Abstract(参考訳): 知識蒸留は通常、学生モデルの出力を教師モデルが提供するソフトラベルと正確に一致させるために、KL(Kullback-Leibler)の発散を用いる。
しかし、KLの発散損失の最適化方向が必ずしもタスク損失と一致しない場合もあり、KLの発散はソフトラベルから発散する誤った予測につながる可能性がある。
この制限は、しばしば学生にとって最適以下の最適化をもたらす。
さらに、温度スケーリング下であっても、KL分散損失関数はロジットの大きい値のチャネルに過度にフォーカスする傾向にあり、より小さい値のチャネルの多さによって提供されるクラス間のリッチな情報を無視している。
この厳しい制約は、軽量な学生にとって難しすぎることを証明し、さらなる知識の蒸留を妨げている。
この問題に対処するために、Kendallの$\tau$係数に基づくRKKD(Rランクケンドール知識蒸留)に基づくプラグアンドプレイランキングの損失を提案する。
RKKDは、学生ロジットのチャネル値の順序を制限し、クラス間の関係情報を提供することによって、より小さなチャンネルに注意を向ける。
最上位のチャネルのランク制約は、最適化中の最適下トラップを回避するのに役立つ。
我々はまた、Kendallの$\tau$係数の異なる微分可能な形式について議論し、提案されたランキング損失関数がKLの発散と一貫した最適化目標を共有することを示した。
CIFAR-100とImageNetデータセットの大規模な実験により、我々のRKKDは、様々な知識蒸留ベースラインの性能を高め、複数の教師と学生のアーキテクチャの組み合わせで広範囲に改善できることが示されている。
関連論文リスト
- Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。