論文の概要: NORM: Knowledge Distillation via N-to-One Representation Matching
- arxiv url: http://arxiv.org/abs/2305.13803v1
- Date: Tue, 23 May 2023 08:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:57:26.339884
- Title: NORM: Knowledge Distillation via N-to-One Representation Matching
- Title(参考訳): NORM:N-to-One表現マッチングによる知識蒸留
- Authors: Xiaolong Liu, Lujun Li, Chao Li, Anbang Yao
- Abstract要約: 本稿では,2つの線形層からなる簡易な特徴変換 (FT) モジュールに依存する2段階の知識蒸留法を提案する。
教師ネットワークが学習した無傷情報を保存するため、我々のFTモジュールは学生ネットワークの最後の畳み込み層にのみ挿入される。
拡張された生徒表現を、教師と同じ数の特徴チャネルを持つN個の非重複特徴セグメントに順次分割することにより、教師表現を同時に近似させる。
- 参考スコア(独自算出の注目度): 18.973254404242507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing feature distillation methods commonly adopt the One-to-one
Representation Matching between any pre-selected teacher-student layer pair. In
this paper, we present N-to-One Representation (NORM), a new two-stage
knowledge distillation method, which relies on a simple Feature Transform (FT)
module consisting of two linear layers. In view of preserving the intact
information learnt by the teacher network, during training, our FT module is
merely inserted after the last convolutional layer of the student network. The
first linear layer projects the student representation to a feature space
having N times feature channels than the teacher representation from the last
convolutional layer, and the second linear layer contracts the expanded output
back to the original feature space. By sequentially splitting the expanded
student representation into N non-overlapping feature segments having the same
number of feature channels as the teacher's, they can be readily forced to
approximate the intact teacher representation simultaneously, formulating a
novel many-to-one representation matching mechanism conditioned on a single
teacher-student layer pair. After training, such an FT module will be naturally
merged into the subsequent fully connected layer thanks to its linear property,
introducing no extra parameters or architectural modifications to the student
network at inference. Extensive experiments on different visual recognition
benchmarks demonstrate the leading performance of our method. For instance, the
ResNet18|MobileNet|ResNet50-1/4 model trained by NORM reaches
72.14%|74.26%|68.03% top-1 accuracy on the ImageNet dataset when using a
pre-trained ResNet34|ResNet50|ResNet50 model as the teacher, achieving an
absolute improvement of 2.01%|4.63%|3.03% against the individually trained
counterpart. Code is available at https://github.com/OSVAI/NORM
- Abstract(参考訳): 既存の特徴蒸留法では、事前に選択された教師-学生層間の一対一表現マッチングが一般的である。
本稿では,N-to-One Representation (NORM) という,2つの線形層からなる単純な特徴変換 (FT) モジュールに依存する新しい2段階の知識蒸留法を提案する。
教師ネットワークが学習した無傷情報を保存するため,学習中は,学習者ネットワークの最後の畳み込み層にftモジュールを挿入するだけでよい。
第1の線形層は、最後の畳み込み層から教師表現よりもN倍の特徴チャネルを有する特徴空間に生徒表現を投影し、第2の線形層は拡張出力を元の特徴空間に戻す。
拡張した生徒表現を教師と同数の特徴チャネルを持つn個の非重複特徴セグメントに順次分割することにより、教師と教師の層対を条件とする新規な多対一表現マッチング機構を定式化することにより、教師表現をそのまま同時に近似することができる。
訓練後、そのようなFTモジュールは線形性のため、後続の完全連結層に自然にマージされ、推論時に学生ネットワークに余分なパラメータやアーキテクチャの変更は導入されない。
様々な視覚認識ベンチマークに関する広範囲な実験により,本手法が有意な性能を示す。
例えば、NORMによってトレーニングされたResNet18|MobileNet|ResNet50-1/4モデルは、トレーニング済みのResNet34|ResNet50|ResNet50モデルを教師として使用する際に、ImageNetデータセット上で72.14%|74.26%|68.03%のトップ1精度に達した。
コードはhttps://github.com/OSVAI/NORMで入手できる。
関連論文リスト
- ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - A Simple and Generic Framework for Feature Distillation via Channel-wise
Transformation [35.233203757760066]
学習可能な非線形チャネルワイズ変換を提案し,教師モデルと生徒の特徴を一致させる。
本手法は,様々なコンピュータビジョンタスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-23T12:13:29Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Alignahead: Online Cross-Layer Knowledge Extraction on Graph Neural
Networks [6.8080936803807734]
グラフニューラルネットワーク(GNN)上の既存の知識蒸留手法はほとんどオフラインである。
本稿では,この問題を解決するための新しいオンライン知識蒸留フレームワークを提案する。
一方の学生層を別の学生モデルの異なる深さの層に整列させることにより, クロス層蒸留戦略を開発する。
論文 参考訳(メタデータ) (2022-05-05T06:48:13Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。