論文の概要: Improved Feature Distillation via Projector Ensemble
- arxiv url: http://arxiv.org/abs/2210.15274v1
- Date: Thu, 27 Oct 2022 09:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:53:31.044477
- Title: Improved Feature Distillation via Projector Ensemble
- Title(参考訳): プロジェクタアンサンブルによる高機能蒸留
- Authors: Yudong Chen, Sen Wang, Jiajun Liu, Xuwei Xu, Frank de Hoog, Zi Huang
- Abstract要約: 本稿では,プロジェクタアンサンブルに基づく新しい特徴蒸留法を提案する。
学生と教師の特徴次元が同じであっても,学生ネットワークはプロジェクタから恩恵を受ける。
本研究では,学生の特徴の質を高めるために,プロジェクタのアンサンブルを提案する。
- 参考スコア(独自算出の注目度): 40.86679028635297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In knowledge distillation, previous feature distillation methods mainly focus
on the design of loss functions and the selection of the distilled layers,
while the effect of the feature projector between the student and the teacher
remains under-explored. In this paper, we first discuss a plausible mechanism
of the projector with empirical evidence and then propose a new feature
distillation method based on a projector ensemble for further performance
improvement. We observe that the student network benefits from a projector even
if the feature dimensions of the student and the teacher are the same. Training
a student backbone without a projector can be considered as a multi-task
learning process, namely achieving discriminative feature extraction for
classification and feature matching between the student and the teacher for
distillation at the same time. We hypothesize and empirically verify that
without a projector, the student network tends to overfit the teacher's feature
distributions despite having different architecture and weights initialization.
This leads to degradation on the quality of the student's deep features that
are eventually used in classification. Adding a projector, on the other hand,
disentangles the two learning tasks and helps the student network to focus
better on the main feature extraction task while still being able to utilize
teacher features as a guidance through the projector. Motivated by the positive
effect of the projector in feature distillation, we propose an ensemble of
projectors to further improve the quality of student features. Experimental
results on different datasets with a series of teacher-student pairs illustrate
the effectiveness of the proposed method.
- Abstract(参考訳): 知識蒸留においては, 従来の特徴蒸留法は主に損失関数の設計と蒸留層の選択に焦点をあてるが, 生徒と教師間の特徴プロジェクタの効果は未検討のままである。
本稿では,まず,実験的なエビデンスを用いて,プロジェクタの妥当な機構を考察し,さらに性能向上のためにプロジェクタアンサンブルに基づく新しい特徴蒸留法を提案する。
生徒ネットワークは,生徒と教師の特徴次元が同じであっても,プロジェクタからメリットを享受できる。
プロジェクタなしで生徒のバックボーンを訓練することはマルチタスク学習プロセス、すなわち、分類のための識別的特徴抽出と、蒸留のための教師と教師との特徴マッチングを同時に行うことができる。
我々は、プロジェクタなしでは、異なるアーキテクチャと重み付け初期化があるにもかかわらず、学生ネットワークが教師の特徴分布に過度に適合する傾向があることを仮定し、実証的に検証する。
これにより、最終的に分類に使用される生徒の深い特徴の品質が低下する。
一方,プロジェクタを追加することで,2つの学習課題を解消し,プロジェクタによる指導として教師機能を利用することができながら,学生ネットワークが主要な特徴抽出タスクにもっと集中するのに役立つ。
特徴蒸留におけるプロジェクターの肯定的な効果を動機として,学生の特徴の質を高めるために,プロジェクターのアンサンブルを提案する。
教師と学生のペアの異なるデータセットに対する実験結果から,提案手法の有効性が示された。
関連論文リスト
- Understanding the Effects of Projectors in Knowledge Distillation [31.882356225974632]
学生と教師が同じ特徴次元を持つ場合でも、プロジェクターを追加することで蒸留性能が向上する。
本稿では、プロジェクターが果たす暗黙の役割について検討するが、これまで見過ごされてきた。
プロジェクターの正の効果に感化されて, プロジェクターアンサンブルを用いた特徴蒸留法を提案し, 蒸留性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-26T06:30:39Z) - Understanding the Role of the Projector in Knowledge Distillation [22.698845243751293]
機能マッチングとメートル法学習問題としての知識蒸留の有効性を再考する。
我々は3つの重要な設計決定、すなわち正規化、ソフト最大関数、投影層を検証する。
ImageNetのDeiT-Tiで、77.2%のトップ1の精度を実現しました。
論文 参考訳(メタデータ) (2023-03-20T13:33:31Z) - Knowledge Distillation with the Reused Teacher Classifier [31.22117343316628]
簡単な知識蒸留技術では,教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。
提案手法は, プロジェクタの追加による圧縮率の最小コストで, 最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-26T06:28:46Z) - Delta Distillation for Efficient Video Processing [68.81730245303591]
デルタ蒸留と呼ばれる新しい知識蒸留方式を提案する。
ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。
副産物として、デルタ蒸留は教師モデルの時間的一貫性を向上させる。
論文 参考訳(メタデータ) (2022-03-17T20:13:30Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。