論文の概要: Understanding and Improving Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2002.03532v2
- Date: Sun, 28 Feb 2021 23:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:11:07.159704
- Title: Understanding and Improving Knowledge Distillation
- Title(参考訳): 知識蒸留の理解と改善
- Authors: Jiaxi Tang, Rakesh Shivanna, Zhe Zhao, Dong Lin, Anima Singh, Ed H.
Chi, Sagar Jain
- Abstract要約: 知識蒸留(KD)はモデルに依存しない手法であり、固定容量の予算を持ちながらモデル品質を改善する。
本稿では,教師の知識を3つの階層レベルに分類し,その知識蒸留への影響について検討する。
- 参考スコア(独自算出の注目度): 13.872105118381938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a model-agnostic technique to improve model
quality while having a fixed capacity budget. It is a commonly used technique
for model compression, where a larger capacity teacher model with better
quality is used to train a more compact student model with better inference
efficiency. Through distillation, one hopes to benefit from student's
compactness, without sacrificing too much on model quality. Despite the large
success of knowledge distillation, better understanding of how it benefits
student model's training dynamics remains under-explored. In this paper, we
categorize teacher's knowledge into three hierarchical levels and study its
effects on knowledge distillation: (1) knowledge of the `universe', where KD
brings a regularization effect through label smoothing; (2) domain knowledge,
where teacher injects class relationships prior to student's logit layer
geometry; and (3) instance specific knowledge, where teacher rescales student
model's per-instance gradients based on its measurement on the event
difficulty. Using systematic analyses and extensive empirical studies on both
synthetic and real-world datasets, we confirm that the aforementioned three
factors play a major role in knowledge distillation. Furthermore, based on our
findings, we diagnose some of the failure cases of applying KD from recent
studies.
- Abstract(参考訳): 知識蒸留(KD)はモデルに依存しない手法であり、固定容量の予算を持ちながらモデル品質を改善する。
モデル圧縮の一般的な手法であり、より優れた品質を持つより大きな容量の教師モデルを用いて、推論効率のよいよりコンパクトな学生モデルを訓練する。
蒸留を通じて、モデルの質を犠牲にすることなく、学生のコンパクトさの恩恵を受けたいと考えている。
知識蒸留の大きな成功にもかかわらず、それが学生モデルの訓練力学にどのように役立つかの理解はいまだに未解明のままである。
本稿では,教師の知識を3つの階層的レベルに分類し,その知識蒸留への影響について検討する。(1)kdの知識がラベル平滑化によって正規化効果をもたらす「ユニバース」,(2)教師が学生のロジット層構造に先立ってクラス関係を注入する「ドメイン知識」,(3)教師が学生モデルのインスタンスごとの勾配を,イベント難易度の測定に基づいて再スケールする「インスタンス固有知識」について述べる。
総合的および実世界のデータセットの系統的分析と広範な実証研究を用いて,上記3つの因子が知識蒸留において重要な役割を担っていることを確認した。
また,最近の研究からkdを応用した失敗例のいくつかを診断した。
関連論文リスト
- Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - SSD-KD: A Self-supervised Diverse Knowledge Distillation Method for
Lightweight Skin Lesion Classification Using Dermoscopic Images [62.60956024215873]
皮膚がんは最も一般的な悪性腫瘍の1つであり、人口に影響を与え、世界中で経済的な重荷を負っている。
皮膚がん検出のほとんどの研究は、ポータブルデバイス上での計算資源の制限を考慮せずに、高い予測精度を追求している。
本研究は,皮膚疾患分類のための汎用的なKDフレームワークに多様な知識を統一する,SSD-KDと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T06:54:29Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。