論文の概要: Distilling a Powerful Student Model via Online Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2103.14473v2
- Date: Mon, 29 Mar 2021 07:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 11:57:59.868898
- Title: Distilling a Powerful Student Model via Online Knowledge Distillation
- Title(参考訳): オンライン知識蒸留による強力な学生モデルの蒸留
- Authors: Shaojie Li, Mingbao Lin, Yan Wang, Feiyue Huang, Yongjian Wu, Yonghong
Tian, Ling Shao, Rongrong Ji
- Abstract要約: 既存のオンライン知識蒸留アプローチは、最高のパフォーマンスを持つ学生を採用するか、より良い全体的なパフォーマンスのためのアンサンブルモデルを構築する。
本稿では,機能融合と自己蒸留という2つの要素からなるFFSDと呼ばれる新しいオンライン知識蒸留法を提案する。
- 参考スコア(独自算出の注目度): 158.68873654990895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing online knowledge distillation approaches either adopt the student
with the best performance or construct an ensemble model for better holistic
performance. However, the former strategy ignores other students' information,
while the latter increases the computational complexity. In this paper, we
propose a novel method for online knowledge distillation, termed FFSD, which
comprises two key components: Feature Fusion and Self-Distillation, towards
solving the above problems in a unified framework. Different from previous
works, where all students are treated equally, the proposed FFSD splits them
into a student leader and a common student set. Then, the feature fusion module
converts the concatenation of feature maps from all common students into a
fused feature map. The fused representation is used to assist the learning of
the student leader. To enable the student leader to absorb more diverse
information, we design an enhancement strategy to increase the diversity among
students. Besides, a self-distillation module is adopted to convert the feature
map of deeper layers into a shallower one. Then, the shallower layers are
encouraged to mimic the transformed feature maps of the deeper layers, which
helps the students to generalize better. After training, we simply adopt the
student leader, which achieves superior performance, over the common students,
without increasing the storage or inference cost. Extensive experiments on
CIFAR-100 and ImageNet demonstrate the superiority of our FFSD over existing
works. The code is available at https://github.com/SJLeo/FFSD.
- Abstract(参考訳): 既存のオンライン知識蒸留のアプローチでは、生徒が最高のパフォーマンスを持つか、より総合的なパフォーマンスを得るためにアンサンブルモデルを構築している。
しかし、前者の戦略は他の生徒の情報を無視し、後者は計算複雑性を増大させる。
本稿では,上記の課題を解決するために,特徴融合と自己蒸留という2つの重要な要素からなるオンライン知識蒸留手法ffsdを提案する。
全ての学生が平等に扱われる以前の作品とは異なり、提案されたFFSDは学生のリーダーと共通の学生セットに分割する。
そして、特徴融合モジュールは、すべての一般学生の特徴マップを融合した特徴マップに変換する。
融合表現は、学生リーダーの学習を支援するために使用される。
学生指導者がより多様な情報を吸収できるように,学生間の多様性を高めるための強化戦略を設計する。
さらに、より深い層のフィーチャーマップをより浅いものに変換するために、自己蒸留モジュールが採用されている。
そして、より浅い層は、より深い層の変換された特徴マップを模倣するよう奨励され、学生がより一般化するのに役立ちます。
学習後、私たちは、ストレージや推論コストを増大させることなく、一般学生よりも優れたパフォーマンスを達成する学生リーダーを採用する。
CIFAR-100とImageNetの大規模な実験は、既存の作業よりもFFSDの方が優れていることを示している。
コードはhttps://github.com/SJLeo/FFSDで入手できる。
関連論文リスト
- Efficient Temporal Sentence Grounding in Videos with Multi-Teacher Knowledge Distillation [29.952771954087602]
TSGV(Temporal Sentence Grounding in Videos)は、未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。
本稿では,TSGVモデルにおいて高い性能を維持しながら効率的な計算を実現することの課題について論じる。
論文 参考訳(メタデータ) (2023-08-07T17:07:48Z) - Improving Ensemble Distillation With Weight Averaging and Diversifying
Perturbation [22.87106703794863]
アンサンブル教師からの知識の蒸留を、より小さな学生ネットワークに動機付ける。
本研究では,複数作業を行う学生を対象に,アンサンブル教師の機能的多様性を吸収するウェイト平均化手法を提案する。
また,教師の多様性をよりよく生徒に伝達できるインプットを求める摂動戦略を提案する。
論文 参考訳(メタデータ) (2022-06-30T06:23:03Z) - Alignahead: Online Cross-Layer Knowledge Extraction on Graph Neural
Networks [6.8080936803807734]
グラフニューラルネットワーク(GNN)上の既存の知識蒸留手法はほとんどオフラインである。
本稿では,この問題を解決するための新しいオンライン知識蒸留フレームワークを提案する。
一方の学生層を別の学生モデルの異なる深さの層に整列させることにより, クロス層蒸留戦略を開発する。
論文 参考訳(メタデータ) (2022-05-05T06:48:13Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。