論文の概要: Knowledge Distillation Meets Self-Supervision
- arxiv url: http://arxiv.org/abs/2006.07114v2
- Date: Mon, 13 Jul 2020 09:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 04:17:26.445425
- Title: Knowledge Distillation Meets Self-Supervision
- Title(参考訳): 自己スーパービジョンと知識蒸留
- Authors: Guodong Xu, Ziwei Liu, Xiaoxiao Li, Chen Change Loy
- Abstract要約: 知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
- 参考スコア(独自算出の注目度): 109.6400639148393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation, which involves extracting the "dark knowledge" from a
teacher network to guide the learning of a student network, has emerged as an
important technique for model compression and transfer learning. Unlike
previous works that exploit architecture-specific cues such as activation and
attention for distillation, here we wish to explore a more general and
model-agnostic approach for extracting "richer dark knowledge" from the
pre-trained teacher model. We show that the seemingly different
self-supervision task can serve as a simple yet powerful solution. For example,
when performing contrastive learning between transformed entities, the noisy
predictions of the teacher network reflect its intrinsic composition of
semantic and pose information. By exploiting the similarity between those
self-supervision signals as an auxiliary task, one can effectively transfer the
hidden information from the teacher to the student. In this paper, we discuss
practical ways to exploit those noisy self-supervision signals with selective
transfer for distillation. We further show that self-supervision signals
improve conventional distillation with substantial gains under few-shot and
noisy-label scenarios. Given the richer knowledge mined from self-supervision,
our knowledge distillation approach achieves state-of-the-art performance on
standard benchmarks, i.e., CIFAR100 and ImageNet, under both
similar-architecture and cross-architecture settings. The advantage is even
more pronounced under the cross-architecture setting, where our method
outperforms the state of the art CRD by an average of 2.3% in accuracy rate on
CIFAR100 across six different teacher-student pairs.
- Abstract(参考訳): 教師ネットワークから「暗知識」を抽出して学生ネットワークの学習を指導する知識蒸留は,モデル圧縮と伝達学習の重要な技術として出現している。
ここでは,事前学習した教師モデルから"より豊かな暗黒知識"を抽出するための,より汎用的でモデルに依存しないアプローチを探求したい。
一見異なる自己スーパービジョンタスクが、シンプルでパワフルなソリューションとして機能することを示します。
例えば、変換されたエンティティ間でコントラスト学習を行う場合、教師ネットワークのノイズ予測はその本質的な意味とポーズ情報の合成を反映する。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
本稿では,これらのノイズの多い自己超音速信号を利用した蒸留のための選択的転送手法について述べる。
さらに, 自己超越信号は, 数ショット, ノイズラベルのシナリオにおいて, 従来型の蒸留を著しく向上させることを示した。
自己スーパービジョンから抽出した豊富な知識を考えると、私たちの知識蒸留手法は、CIFAR100やImageNetといった標準ベンチマークにおける最先端のパフォーマンスを達成する。
そこでは,CIFAR100におけるCRDの精度を6つの異なる教師と学生のペアで平均2.3%向上させる手法を提案する。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Knowledge Distillation via Token-level Relationship Graph [12.356770685214498]
token-level Relation Graph (TRG) を用いた知識蒸留法を提案する。
TRGを利用することで、教師モデルから高レベルの意味情報を効果的にエミュレートすることができる。
我々は,提案手法の有効性を,いくつかの最先端手法に対して評価する実験を行った。
論文 参考訳(メタデータ) (2023-06-20T08:16:37Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Learning Knowledge Representation with Meta Knowledge Distillation for
Single Image Super-Resolution [82.89021683451432]
単一画像超解像課題に対する教師/学生アーキテクチャに基づくモデルに依存しないメタ知識蒸留法を提案する。
種々の単一画像超解像データセットを用いた実験により,提案手法は既存の知識表現関連蒸留法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T02:41:04Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Hierarchical Self-supervised Augmented Knowledge Distillation [1.9355744690301404]
本稿では,ネットワークを誘導し,本来の認識タスクと自己教師付き補助タスクの共分散を学習するための,新たな自己教師型拡張タスクを提案する。
正規分類能力を失うことなく、表現力を向上させるためのより豊かな知識として実証される。
CIFAR-100では平均2.56%,ImageNetでは0.77%向上した。
論文 参考訳(メタデータ) (2021-07-29T02:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。