論文の概要: SimReg: Regression as a Simple Yet Effective Tool for Self-supervised
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2201.05131v1
- Date: Thu, 13 Jan 2022 18:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 17:00:07.438581
- Title: SimReg: Regression as a Simple Yet Effective Tool for Self-supervised
Knowledge Distillation
- Title(参考訳): SimReg: 自己教師型知識蒸留のためのシンプルな効果的なツールとしての回帰
- Authors: K L Navaneet, Soroush Abbasi Koohpayegani, Ajinkya Tejankar, Hamed
Pirsiavash
- Abstract要約: 特徴回帰は、大きなニューラルネットワークモデルをより小さなものに蒸留する簡単な方法である。
ネットワークアーキテクチャに簡単な変更を加えると、レグレッションは知識蒸留のためのより複雑な最先端のアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.739041141948032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature regression is a simple way to distill large neural network models to
smaller ones. We show that with simple changes to the network architecture,
regression can outperform more complex state-of-the-art approaches for
knowledge distillation from self-supervised models. Surprisingly, the addition
of a multi-layer perceptron head to the CNN backbone is beneficial even if used
only during distillation and discarded in the downstream task. Deeper
non-linear projections can thus be used to accurately mimic the teacher without
changing inference architecture and time. Moreover, we utilize independent
projection heads to simultaneously distill multiple teacher networks. We also
find that using the same weakly augmented image as input for both teacher and
student networks aids distillation. Experiments on ImageNet dataset demonstrate
the efficacy of the proposed changes in various self-supervised distillation
settings.
- Abstract(参考訳): 特徴回帰は、大きなニューラルネットワークモデルをより小さなものに蒸留する簡単な方法である。
ネットワークアーキテクチャの単純な変更により、回帰は自己教師付きモデルからの知識蒸留において、より複雑な最先端の手法よりも優れていることを示す。
驚くべきことに、cnnバックボーンに多層パーセプトロンヘッドを追加することは、蒸留中にのみ使用し、下流タスクで廃棄しても有益である。
これにより、推論アーキテクチャや時間を変更することなく、教師を正確に模倣することができる。
さらに,独立したプロジェクションヘッドを用いて複数の教師ネットワークを同時に蒸留する。
また, 教師ネットワークと学生ネットワークの双方の入力として, 同じ弱い強調画像を使用することで, 蒸留が促進されることがわかった。
ImageNetデータセットの実験は、様々な自己監督蒸留設定における提案された変更の有効性を示す。
関連論文リスト
- Understanding the Gains from Repeated Self-Distillation [65.53673000292079]
自己蒸留は、学生モデルが教師モデルと同じアーキテクチャを持つ知識蒸留の一種である。
多段階の自己蒸留によって達成される余剰リスクは、単段階の自己蒸留において著しく改善できることを示す。
UCIレポジトリの回帰タスクに関する実証的な結果は、学習モデルのリスク(MSE)を最大47%削減することを示している。
論文 参考訳(メタデータ) (2024-07-05T15:48:34Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Visualizing the embedding space to explain the effect of knowledge
distillation [5.678337324555035]
近年の研究では、知識蒸留はネットワークのサイズを減らすのに有効であることが判明している。
これらの進歩にもかかわらず、この方法がなぜ機能するのか、つまり、結果として生じる学生モデルが「どう機能するか」は、いまだに不明である。
論文 参考訳(メタデータ) (2021-10-09T07:04:26Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Students are the Best Teacher: Exit-Ensemble Distillation with
Multi-Exits [25.140055086630838]
本論文では,畳み込みニューラルネットワーク(CNN)の分類性能を改善するための知識蒸留に基づく新しい学習法を提案する。
教師が生徒にのみ教える従来の蒸留の概念とは異なり、生徒は他の生徒や教師がもっとよく学ぶのを助けることができる。
論文 参考訳(メタデータ) (2021-04-01T07:10:36Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。