論文の概要: Function-Consistent Feature Distillation
- arxiv url: http://arxiv.org/abs/2304.11832v1
- Date: Mon, 24 Apr 2023 05:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 16:08:26.419161
- Title: Function-Consistent Feature Distillation
- Title(参考訳): 機能整合型特徴蒸留
- Authors: Dongyang Liu, Meina Kan, Shiguang Shan, Xilin Chen
- Abstract要約: 特徴蒸留により、生徒は教師の中間的特徴を模倣する。
教師と生徒の機能的類似性を明示的に最適化するFCFD(Function-Consistent Feature Distillation)を提案する。
- 参考スコア(独自算出の注目度): 99.0460424124249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature distillation makes the student mimic the intermediate features of the
teacher. Nearly all existing feature-distillation methods use L2 distance or
its slight variants as the distance metric between teacher and student
features. However, while L2 distance is isotropic w.r.t. all dimensions, the
neural network's operation on different dimensions is usually anisotropic,
i.e., perturbations with the same 2-norm but in different dimensions of
intermediate features lead to changes in the final output with largely
different magnitude. Considering this, we argue that the similarity between
teacher and student features should not be measured merely based on their
appearance (i.e., L2 distance), but should, more importantly, be measured by
their difference in function, namely how later layers of the network will read,
decode, and process them. Therefore, we propose Function-Consistent Feature
Distillation (FCFD), which explicitly optimizes the functional similarity
between teacher and student features. The core idea of FCFD is to make teacher
and student features not only numerically similar, but more importantly produce
similar outputs when fed to the later part of the same network. With FCFD, the
student mimics the teacher more faithfully and learns more from the teacher.
Extensive experiments on image classification and object detection demonstrate
the superiority of FCFD to existing methods. Furthermore, we can combine FCFD
with many existing methods to obtain even higher accuracy. Our codes are
available at https://github.com/LiuDongyang6/FCFD.
- Abstract(参考訳): 特徴蒸留は生徒を先生の中間的特徴を模倣させる。
既存のほとんど全ての特徴蒸留法は、教師と学生の特徴間の距離メートル法としてL2距離またはそのわずかな変種を用いる。
しかし、L2距離はすべての次元の等方性であるのに対し、ニューラルネットワークの異なる次元での操作は通常異方性であり、すなわち、同じ2ノルムの摂動を持つが、中間的特徴の異なる次元の摂動は、大まかに異なる最終的な出力の変化をもたらす。
これを踏まえて、教師と生徒の特徴の類似性は、単にその外観(L2距離)に基づいて測定されるべきではなく、その機能の違い、すなわち、後のネットワーク層がどのように読み、デコードされ、処理されるかによって測定されるべきである。
そこで我々は,教師と生徒の機能的類似性を明示的に最適化するFCFD(Function-Consistent Feature Distillation)を提案する。
FCFDの中核となる考え方は、教師と生徒の機能を数値的に類似させるだけでなく、同じネットワークの後半に供給されたときに同様の出力を生成することである。
FCFDでは、生徒は教師をより忠実に模倣し、教師からより多くのことを学ぶ。
画像分類と物体検出に関する大規模な実験は、既存の方法よりもFCFDの方が優れていることを示す。
さらに,fcfdと既存の手法を組み合わせることで,精度を高めることができる。
私たちのコードはhttps://github.com/liudongyang6/fcfdで利用可能です。
関連論文リスト
- Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - NORM: Knowledge Distillation via N-to-One Representation Matching [18.973254404242507]
本稿では,2つの線形層からなる簡易な特徴変換 (FT) モジュールに依存する2段階の知識蒸留法を提案する。
教師ネットワークが学習した無傷情報を保存するため、我々のFTモジュールは学生ネットワークの最後の畳み込み層にのみ挿入される。
拡張された生徒表現を、教師と同じ数の特徴チャネルを持つN個の非重複特徴セグメントに順次分割することにより、教師表現を同時に近似させる。
論文 参考訳(メタデータ) (2023-05-23T08:15:45Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - PKD: General Distillation Framework for Object Detectors via Pearson
Correlation Coefficient [18.782520279344553]
この論文は、異種教師検出器によるFPNの優れた特徴が学生の助けとなることを実証的に見出した。
そこで本研究では,教師の関連情報に焦点を合わせるために,ピアソン相関係数を用いた特徴の模倣を提案する。
提案手法は,既存の検出KD法より常に優れており,同質・異質な学生・教師のペアに対しても有効である。
論文 参考訳(メタデータ) (2022-07-05T13:37:34Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - MHFC: Multi-Head Feature Collaboration for Few-Shot Learning [17.699793591135904]
少ないショットラーニングは、データスカース問題に対処することを目的としている。
本稿では,マルチヘッド特徴を統一空間に投影しようとするマルチヘッド特徴協調(MHFC)アルゴリズムを提案する。
提案手法を5つのベンチマークデータセットで評価し,最新技術と比較して2.1%-7.8%の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-09-16T08:09:35Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。