論文の概要: Knowledge Transfer via Dense Cross-Layer Mutual-Distillation
- arxiv url: http://arxiv.org/abs/2008.07816v1
- Date: Tue, 18 Aug 2020 09:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:05:06.909534
- Title: Knowledge Transfer via Dense Cross-Layer Mutual-Distillation
- Title(参考訳): 密層相互蒸留による知識伝達
- Authors: Anbang Yao, Dawei Sun
- Abstract要約: 教師と学生のネットワークをゼロから協調的に訓練するDense Cross-layer Mutual-distillation (DCM)を提案する。
KT性能を高めるために,付加型分類器を用いた層間双方向KD操作を導入する。
提案手法は様々なKTタスクでテストし,関連する手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 24.24969126783315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) based methods adopt the one-way Knowledge
Transfer (KT) scheme in which training a lower-capacity student network is
guided by a pre-trained high-capacity teacher network. Recently, Deep Mutual
Learning (DML) presented a two-way KT strategy, showing that the student
network can be also helpful to improve the teacher network. In this paper, we
propose Dense Cross-layer Mutual-distillation (DCM), an improved two-way KT
method in which the teacher and student networks are trained collaboratively
from scratch. To augment knowledge representation learning, well-designed
auxiliary classifiers are added to certain hidden layers of both teacher and
student networks. To boost KT performance, we introduce dense bidirectional KD
operations between the layers appended with classifiers. After training, all
auxiliary classifiers are discarded, and thus there are no extra parameters
introduced to final models. We test our method on a variety of KT tasks,
showing its superiorities over related methods. Code is available at
https://github.com/sundw2014/DCM
- Abstract(参考訳): 知識蒸留(kd)ベースの方法は、予め訓練された高容量教員ネットワークにより、低容量学生ネットワークを訓練する片道知識伝達(kt)方式を採用する。
近年,deep mutual learning (dml) が2方向kt戦略を提示し,教師ネットワークの改善にも学生ネットワークが有効であることを示した。
本稿では,教師と学生のネットワークをゼロから協調的に訓練する改良された双方向KT法であるDense Cross-layer Mutual-distillation (DCM)を提案する。
知識表現学習を増強するため、教師と生徒のネットワークの隠れた層によく設計された補助分類器を追加する。
KT性能を高めるために,分類器を付加した層間での高密度双方向KD演算を導入する。
トレーニング後、すべての補助分類器は破棄され、最終モデルに追加のパラメータは導入されない。
提案手法は様々なKTタスクでテストし,関連する手法よりも優れていることを示す。
コードはhttps://github.com/sundw2014/DCMで入手できる。
関連論文リスト
- Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Adaptive Teaching with Shared Classifier for Knowledge Distillation [6.03477652126575]
知識蒸留(KD)は、教師ネットワークから学生ネットワークへ知識を伝達する技術である。
共有分類器(ATSC)を用いた適応型授業を提案する。
提案手法は,CIFAR-100とImageNetのデータセットに対して,単教師と多教師の両方のシナリオで最新の結果が得られる。
論文 参考訳(メタデータ) (2024-06-12T08:51:08Z) - Online Knowledge Distillation via Mutual Contrastive Learning for Visual
Recognition [27.326420185846327]
オンライン知識蒸留(KD)のための相互コントラスト学習(MCL)フレームワークを提案する。
我々のMCLは、クロスネットワーク埋め込み情報を集約し、2つのネットワーク間の相互情報に対する低境界を最大化することができる。
画像分類と視覚認識タスクへの変換学習の実験は、階層的MCLが一貫した性能向上につながることを示す。
論文 参考訳(メタデータ) (2022-07-23T13:39:01Z) - Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For
Model Compression [2.538209532048867]
相互学習(ML)は、複数の単純な学生ネットワークが知識を共有することで恩恵を受ける、代替戦略を提供する。
そこで本研究では,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T09:59:31Z) - Hierarchical Self-supervised Augmented Knowledge Distillation [1.9355744690301404]
本稿では,ネットワークを誘導し,本来の認識タスクと自己教師付き補助タスクの共分散を学習するための,新たな自己教師型拡張タスクを提案する。
正規分類能力を失うことなく、表現力を向上させるためのより豊かな知識として実証される。
CIFAR-100では平均2.56%,ImageNetでは0.77%向上した。
論文 参考訳(メタデータ) (2021-07-29T02:57:21Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Inter-Region Affinity Distillation for Road Marking Segmentation [81.3619453527367]
本研究では,大規模な教員ネットワークからより小さな学生ネットワークへ知識を蒸留する問題について検討する。
我々の手法はInter-Region Affinity KD(IntRA-KD)として知られている。
論文 参考訳(メタデータ) (2020-04-11T04:26:37Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。