論文の概要: Students are the Best Teacher: Exit-Ensemble Distillation with
Multi-Exits
- arxiv url: http://arxiv.org/abs/2104.00299v2
- Date: Mon, 5 Apr 2021 01:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 12:37:19.927374
- Title: Students are the Best Teacher: Exit-Ensemble Distillation with
Multi-Exits
- Title(参考訳): 学生は最高の教師です:マルチエクイットによるエグジットセンブル蒸留
- Authors: Hojung Lee, Jong-Seok Lee
- Abstract要約: 本論文では,畳み込みニューラルネットワーク(CNN)の分類性能を改善するための知識蒸留に基づく新しい学習法を提案する。
教師が生徒にのみ教える従来の蒸留の概念とは異なり、生徒は他の生徒や教師がもっとよく学ぶのを助けることができる。
- 参考スコア(独自算出の注目度): 25.140055086630838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel knowledge distillation-based learning method to
improve the classification performance of convolutional neural networks (CNNs)
without a pre-trained teacher network, called exit-ensemble distillation. Our
method exploits the multi-exit architecture that adds auxiliary classifiers
(called exits) in the middle of a conventional CNN, through which early
inference results can be obtained. The idea of our method is to train the
network using the ensemble of the exits as the distillation target, which
greatly improves the classification performance of the overall network. Our
method suggests a new paradigm of knowledge distillation; unlike the
conventional notion of distillation where teachers only teach students, we show
that students can also help other students and even the teacher to learn
better. Experimental results demonstrate that our method achieves significant
improvement of classification performance on various popular CNN architectures
(VGG, ResNet, ResNeXt, WideResNet, etc.). Furthermore, the proposed method can
expedite the convergence of learning with improved stability. Our code will be
available on Github.
- Abstract(参考訳): 本稿では,事前学習した教師ネットワークを使わずに,畳み込みニューラルネットワーク(CNN)の分類性能を向上させるための知識蒸留に基づく学習手法を提案する。
提案手法は,従来のCNNの中央に補助分類器(出口と呼ばれる)を付加するマルチエグジットアーキテクチャを利用して,早期推論結果を得る。
本手法は,蒸留ターゲットとして出口のアンサンブルを用いてネットワークを訓練し,ネットワーク全体の分類性能を大幅に向上させる。
教師が生徒にのみ教えるという従来の「蒸留」とは違って,生徒は他の生徒や教師もより良く学ぶことができることを示し,知識蒸留の新しいパラダイムを提案する。
実験により,提案手法は,様々なCNNアーキテクチャ(VGG,ResNet,ResNeXt,WideResNetなど)の分類性能を大幅に向上することを示す。
さらに,提案手法は,安定性の向上とともに学習の収束を早めることができる。
私たちのコードはgithubで入手できる。
関連論文リスト
- AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - On effects of Knowledge Distillation on Transfer Learning [0.0]
本稿では,知識蒸留と伝達学習を組み合わせたTL+KDという機械学習アーキテクチャを提案する。
我々は,教師ネットワークの指導と知識を微調整中に利用することにより,学生ネットワークを改良し,精度などの検証性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-10-18T08:11:52Z) - Meta Learning for Knowledge Distillation [12.716258111815312]
教師ネットワークは、学生ネットワークにより良い知識を伝達することを学ぶことができることを示す。
内部学習者とメタ学習者の整合性を改善するためのパイロット更新機構を導入する。
論文 参考訳(メタデータ) (2021-06-08T17:59:03Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。