論文の概要: Knowledge Distillation Using Hierarchical Self-Supervision Augmented
Distribution
- arxiv url: http://arxiv.org/abs/2109.03075v1
- Date: Tue, 7 Sep 2021 13:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:36:14.468741
- Title: Knowledge Distillation Using Hierarchical Self-Supervision Augmented
Distribution
- Title(参考訳): 階層的自己スーパービジョン増強分布を用いた知識蒸留
- Authors: Chuanguang Yang, Zhulin An, Linhang Cai, and Yongjun Xu
- Abstract要約: ネットワークをガイドし,より意味のある特徴を学習するための補助的なセルフスーパービジョン拡張タスクを提案する。
従来の知識とは異なり、この分布は、教師付きおよび自己教師型特徴学習からの共同知識を符号化する。
我々はKD法を階層的自己スーパービジョン拡張知識蒸留(HSSAKD)と呼ぶ。
- 参考スコア(独自算出の注目度): 1.7718093866806544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is an effective framework that aims to transfer
meaningful information from a large teacher to a smaller student. Generally, KD
often involves how to define and transfer knowledge. Previous KD methods often
focus on mining various forms of knowledge, for example, feature maps and
refined information. However, the knowledge is derived from the primary
supervised task and thus is highly task-specific. Motivated by the recent
success of self-supervised representation learning, we propose an auxiliary
self-supervision augmented task to guide networks to learn more meaningful
features. Therefore, we can derive soft self-supervision augmented
distributions as richer dark knowledge from this task for KD. Unlike previous
knowledge, this distribution encodes joint knowledge from supervised and
self-supervised feature learning. Beyond knowledge exploration, another crucial
aspect is how to learn and distill our proposed knowledge effectively. To fully
take advantage of hierarchical feature maps, we propose to append several
auxiliary branches at various hidden layers. Each auxiliary branch is guided to
learn self-supervision augmented task and distill this distribution from
teacher to student. Thus we call our KD method as Hierarchical Self-Supervision
Augmented Knowledge Distillation (HSSAKD). Experiments on standard image
classification show that both offline and online HSSAKD achieves
state-of-the-art performance in the field of KD. Further transfer experiments
on object detection further verify that HSSAKD can guide the network to learn
better features, which can be attributed to learn and distill an auxiliary
self-supervision augmented task effectively.
- Abstract(参考訳): 知識蒸留(KD)は、大きな教師から小さな学生に意味のある情報を伝達することを目的とした効果的な枠組みである。
一般に、kdは知識の定義や伝達の仕方を伴います。
以前のKD手法は、例えばフィーチャーマップや洗練された情報など、様々な種類の知識のマイニングに重点を置いていた。
しかし、知識は主監督タスクから派生しており、タスク固有のものである。
自己教師あり表現学習の最近の成功に動機づけられ,ネットワークがより有意義な特徴を学ぶための補助的自己教師あり拡張タスクを提案する。
したがって,このタスクからソフト自己スーパービジョン拡張分布をより豊かな暗黒知識として導出することができる。
従来の知識とは異なり、この分布は、教師付きおよび自己教師型特徴学習からの共同知識を符号化する。
知識探索以外にも、提案する知識を効果的に学習し、蒸留する方法も重要な側面です。
階層的特徴マップを十分に活用するために,様々な隠れレイヤに複数の補助ブランチを追加することを提案する。
各補助分枝は、教師から生徒への自己超越的増分課題を学習し、この分布を蒸留する。
そこで我々はKD法を階層的自己スーパービジョン拡張知識蒸留(HSSAKD)と呼ぶ。
標準画像分類の実験では、オフラインとオンラインのHSSAKDの両方がKDの分野で最先端のパフォーマンスを達成した。
オブジェクト検出に関するさらなる転送実験により、hssakdはネットワークにより良い特徴を学ぶためのガイドとなり、補助的な自己スーパービジョン拡張タスクを効果的に学習し蒸留することができる。
関連論文リスト
- Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Hierarchical Self-supervised Augmented Knowledge Distillation [1.9355744690301404]
本稿では,ネットワークを誘導し,本来の認識タスクと自己教師付き補助タスクの共分散を学習するための,新たな自己教師型拡張タスクを提案する。
正規分類能力を失うことなく、表現力を向上させるためのより豊かな知識として実証される。
CIFAR-100では平均2.56%,ImageNetでは0.77%向上した。
論文 参考訳(メタデータ) (2021-07-29T02:57:21Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。