論文の概要: Improving Knowledge Distillation via Regularizing Feature Norm and
Direction
- arxiv url: http://arxiv.org/abs/2305.17007v1
- Date: Fri, 26 May 2023 15:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:07:42.551768
- Title: Improving Knowledge Distillation via Regularizing Feature Norm and
Direction
- Title(参考訳): 正規化特徴ノルムと方向による知識蒸留の改善
- Authors: Yuzhu Wang, Lechao Cheng, Manni Duan, Yongheng Wang, Zunlei Feng, Shu
Kong
- Abstract要約: 知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
- 参考スコア(独自算出の注目度): 16.98806338782858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) exploits a large well-trained model (i.e.,
teacher) to train a small student model on the same dataset for the same task.
Treating teacher features as knowledge, prevailing methods of knowledge
distillation train student by aligning its features with the teacher's, e.g.,
by minimizing the KL-divergence between their logits or L2 distance between
their intermediate features. While it is natural to believe that better
alignment of student features to the teacher better distills teacher knowledge,
simply forcing this alignment does not directly contribute to the student's
performance, e.g., classification accuracy. In this work, we propose to align
student features with class-mean of teacher features, where class-mean
naturally serves as a strong classifier. To this end, we explore baseline
techniques such as adopting the cosine distance based loss to encourage the
similarity between student features and their corresponding class-means of the
teacher. Moreover, we train the student to produce large-norm features,
inspired by other lines of work (e.g., model pruning and domain adaptation),
which find the large-norm features to be more significant. Finally, we propose
a rather simple loss term (dubbed ND loss) to simultaneously (1) encourage
student to produce large-\emph{norm} features, and (2) align the
\emph{direction} of student features and teacher class-means. Experiments on
standard benchmarks demonstrate that our explored techniques help existing KD
methods achieve better performance, i.e., higher classification accuracy on
ImageNet and CIFAR100 datasets, and higher detection precision on COCO dataset.
Importantly, our proposed ND loss helps the most, leading to the
state-of-the-art performance on these benchmarks. The source code is available
at \url{https://github.com/WangYZ1608/Knowledge-Distillation-via-ND}.
- Abstract(参考訳): 知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、この整合性を強制することは生徒のパフォーマンス、例えば分類精度に直接寄与しない。
本研究では,学生の特徴を教師の特徴のクラス平均と整合させ,クラス平均が自然に強力な分類器として機能することを提案する。
そこで本研究では, 生徒の特徴と教師のクラス平均との類似性を高めるために, 余弦距離に基づく損失の活用などのベースライン手法について検討する。
さらに,大規模ノルム機能をより重要視する他の作業(モデルプランニングやドメイン適応など)にインスパイアされた,大規模ノルム機能の作成を学生に指導する。
最後に,(1) 学生に大きな「emph{norm}」特徴の獲得を促し,(2) 生徒の特徴の「emph{direction}」を整列させるための,比較的単純な損失項(dubed ND loss)を提案する。
標準ベンチマーク実験により、既存のKD手法により、ImageNetおよびCIFAR100データセットの分類精度が向上し、COCOデータセットにおける検出精度が向上することが示された。
重要なことは、提案されたND損失が最も役立ち、これらのベンチマークにおける最先端のパフォーマンスにつながります。
ソースコードは \url{https://github.com/wangyz1608/knowledge-distillation-via-nd} で入手できる。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。
教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-03-10T16:46:05Z) - Knowledge Distillation for Object Detection via Rank Mimicking and
Prediction-guided Feature Imitation [34.441349114336994]
本研究では,一段検出器を蒸留するためのランクミミキング (RM) と予測誘導特徴模擬 (PFI) を提案する。
RMは、教師からの候補ボックスのランクを、蒸留のための新しい種類の知識として捉えている。
PFIは、特徴差と予測差との相関を図り、特徴の模倣を直接して生徒の精度を向上させる。
論文 参考訳(メタデータ) (2021-12-09T11:19:15Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - ProxylessKD: Direct Knowledge Distillation with Inherited Classifier for
Face Recognition [84.49978494275382]
知識蒸留(KD)とは、大きなモデルから小さなモデルに知識を移すことである。
本研究では,顔認識におけるその応用に焦点を当てる。
本稿では,顔認識の精度を直接最適化するProxylessKDを提案する。
論文 参考訳(メタデータ) (2020-10-31T13:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。