論文の概要: ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via $α$-$β$-Divergence
- arxiv url: http://arxiv.org/abs/2505.04560v2
- Date: Thu, 15 May 2025 15:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.64555
- Title: ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via $α$-$β$-Divergence
- Title(参考訳): ABKD:$α$-$β$-Divergenceによる知識蒸留における確率質量の適正配分
- Authors: Guanghui Wang, Zhiyong Yang, Zitai Wang, Shi Wang, Qianqian Xu, Qingming Huang,
- Abstract要約: 知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を伝達する。
KDの中核的な課題は、2つのモード集中効果のバランスにある。
我々は$alpha$$beta$-divergenceを持つ汎用フレームワークであるABKDを提案する。
- 参考スコア(独自算出の注目度): 89.630486749083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) transfers knowledge from a large teacher model to a smaller student model by minimizing the divergence between their output distributions, typically using forward Kullback-Leibler divergence (FKLD) or reverse KLD (RKLD). It has become an effective training paradigm due to the broader supervision information provided by the teacher distribution compared to one-hot labels. We identify that the core challenge in KD lies in balancing two mode-concentration effects: the \textbf{\textit{Hardness-Concentration}} effect, which refers to focusing on modes with large errors, and the \textbf{\textit{Confidence-Concentration}} effect, which refers to focusing on modes with high student confidence. Through an analysis of how probabilities are reassigned during gradient updates, we observe that these two effects are entangled in FKLD and RKLD, but in extreme forms. Specifically, both are too weak in FKLD, causing the student to fail to concentrate on the target class. In contrast, both are too strong in RKLD, causing the student to overly emphasize the target class while ignoring the broader distributional information from the teacher. To address this imbalance, we propose ABKD, a generic framework with $\alpha$-$\beta$-divergence. Our theoretical results show that ABKD offers a smooth interpolation between FKLD and RKLD, achieving an effective trade-off between these effects. Extensive experiments on 17 language/vision datasets with 12 teacher-student settings confirm its efficacy. The code is available at https://github.com/ghwang-s/abkd.
- Abstract(参考訳): 知識蒸留(KD)は、大容量の教師モデルからより小さな学生モデルに、出力分布間のばらつきを最小化することで知識を伝達する(一般的には、フォワード・カルバック・リーブラー分岐(FKLD)またはリバースKLD(RKLD))。
教師分布が1ホットレーベルと比較して幅広い監督情報を提供するため、効果的な訓練パラダイムとなっている。
KDの中核的な課題は、大きなエラーのあるモードに焦点をあてる \textbf{\textit{Hardness-Concentration}} 効果と、高信頼のモードに焦点をあてる \textbf{\textit{Confidence-Concentration}} 効果のバランスをとることである。
この2つの効果がFKLDとRKLDに絡み合っているが、極端に形をしている。
具体的には、どちらもFKLDでは弱すぎるため、学生はターゲットクラスに集中できない。
対照的に、どちらもRKLDでは強すぎるため、教師の広範な分布情報を無視しながら、ターゲットクラスを過度に強調する。
この不均衡に対処するために、$\alpha$-$\beta$-divergence を持つ汎用フレームワーク ABKD を提案する。
以上の結果から,ABKDはFKLDとRKLDを円滑に補間し,これらの効果の効果的なトレードオフを実現することが示唆された。
12人の教師が設定した17の言語/ビジョンデータセットの大規模な実験により、その有効性が確認された。
コードはhttps://github.com/ghwang-s/abkd.comで公開されている。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。
CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文 参考訳(メタデータ) (2024-10-09T05:42:47Z) - Discriminative and Consistent Representation Distillation [6.24302896438145]
識別・一貫性蒸留(DCD)
DCDは、教師と生徒の表現の分布の相違を最小限に抑えるために、一貫性の規則化とともに対照的な損失を生んでいる。
本手法では,これらの相補的目的のバランスをとるために,訓練中に適応する学習可能な温度パラメータとバイアスパラメータを導入する。
論文 参考訳(メタデータ) (2024-07-16T14:53:35Z) - De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。
既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。
本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文 参考訳(メタデータ) (2024-03-28T16:13:22Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in
Knowledge Distillation [9.157410884444312]
知識蒸留(KD)は,効率的なニューラルアーキテクチャを設計するために研究されている。
KL分散損失は,タウ増加時のロジットマッチングと,タウが0。
特にKL分散損失を小さいタウで用いた場合, ラベルノイズが軽減される。
論文 参考訳(メタデータ) (2021-05-19T04:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。