論文の概要: Multi-head Knowledge Distillation for Model Compression
- arxiv url: http://arxiv.org/abs/2012.02911v1
- Date: Sat, 5 Dec 2020 00:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:15:19.892652
- Title: Multi-head Knowledge Distillation for Model Compression
- Title(参考訳): モデル圧縮のためのマルチヘッド知識蒸留
- Authors: Huan Wang, Suhas Lohit, Michael Jones, Yun Fu
- Abstract要約: そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 65.58705111863814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several methods of knowledge distillation have been developed for neural
network compression. While they all use the KL divergence loss to align the
soft outputs of the student model more closely with that of the teacher, the
various methods differ in how the intermediate features of the student are
encouraged to match those of the teacher. In this paper, we propose a
simple-to-implement method using auxiliary classifiers at intermediate layers
for matching features, which we refer to as multi-head knowledge distillation
(MHKD). We add loss terms for training the student that measure the
dissimilarity between student and teacher outputs of the auxiliary classifiers.
At the same time, the proposed method also provides a natural way to measure
differences at the intermediate layers even though the dimensions of the
internal teacher and student features may be different. Through several
experiments in image classification on multiple datasets we show that the
proposed method outperforms prior relevant approaches presented in the
literature.
- Abstract(参考訳): ニューラルネットワーク圧縮のための知識蒸留法が開発されている。
学生モデルのソフトアウトプットを教師のソフトアウトプットとより緊密に整合させるためにKL分散損失を用いるが、学生の中間的特徴が教師のものとどのように一致するかは様々な方法が異なる。
本稿では,マルチヘッド知識蒸留(MHKD)と呼ぶ,中間層における補助的分類器を用いた簡易な実装法を提案する。
補助分類器の学生と教師の出力の相違を計測する学生の訓練のための損失項を追加する。
同時に,本手法は,内部教師の次元や学生の特徴が異なるとしても,中間層の違いを測定する自然な方法も提供する。
複数のデータセットにおける画像分類実験を通じて,提案手法が文献に提示される先行手法よりも優れていることを示す。
関連論文リスト
- AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Knowledge Distillation from Single to Multi Labels: an Empirical Study [14.12487391004319]
クラス活性化マップ(CAM)に基づく新しい蒸留法を提案する。
以上の結果から,ロジット法はマルチラベル分類に適していないことが示唆された。
そこで本研究では,適切な暗黒知識にクラス情報を導入し,最終分類結果と高い相関性を持たせることを提案する。
論文 参考訳(メタデータ) (2023-03-15T04:39:01Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文 参考訳(メタデータ) (2022-05-21T08:30:58Z) - Mapping Emulation for Knowledge Distillation [94.20630785525732]
本稿では,フェデレーション学習に不可欠なソース・ブラインド知識蒸留問題の定式化を行う。
新しいアーキテクチャMEKDを提案する。
様々なベンチマークにおいて、MEKDは既存のソースブレンドKD法より優れている。
論文 参考訳(メタデータ) (2022-05-21T02:38:16Z) - Adaptive Distillation: Aggregating Knowledge from Multiple Paths for
Efficient Distillation [15.337420940135704]
ニューラルネットワーク圧縮アルゴリズムの主なトレンドの1つに、知識蒸留がある。
本稿では,マルチタスク学習に基づく適応手法を提案する。
本稿では, 知識蒸留の分類, セマンティックセグメンテーション, オブジェクト検出タスクへの応用について, 他のベースラインに対する提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2021-10-19T00:57:40Z) - Cross-Layer Distillation with Semantic Calibration [26.59016826651437]
本稿では,教師モデルの適切なターゲット層を各生徒層に自動的に割り当てるセマンティックなクロスレイヤー知識蒸留(SemCKD)を提案する。
学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
論文 参考訳(メタデータ) (2020-12-06T11:16:07Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。