論文の概要: Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones
- arxiv url: http://arxiv.org/abs/2103.05959v1
- Date: Wed, 10 Mar 2021 09:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:53:24.955835
- Title: Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones
- Title(参考訳): 自己スーパービジョンを超えて:バックボーンを改善するためのシンプルで効果的なネットワーク蒸留方法
- Authors: Cheng Cui and Ruoyu Guo and Yuning Du and Dongliang He and Fu Li and
Zewu Wu and Qiwen Liu and Shilei Wen and Jizhou Huang and Xiaoguang Hu and
Dianhai Yu and Errui Ding and Yanjun Ma
- Abstract要約: 既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
- 参考スコア(独自算出の注目度): 40.33419553042038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, research efforts have been concentrated on revealing how
pre-trained model makes a difference in neural network performance.
Self-supervision and semi-supervised learning technologies have been
extensively explored by the community and are proven to be of great potential
in obtaining a powerful pre-trained model. However, these models require huge
training costs (i.e., hundreds of millions of images or training iterations).
In this paper, we propose to improve existing baseline networks via knowledge
distillation from off-the-shelf pre-trained big powerful models. Different from
existing knowledge distillation frameworks which require student model to be
consistent with both soft-label generated by teacher model and hard-label
annotated by humans, our solution performs distillation by only driving
prediction of the student model consistent with that of the teacher model.
Therefore, our distillation setting can get rid of manually labeled data and
can be trained with extra unlabeled data to fully exploit capability of teacher
model for better learning. We empirically find that such simple distillation
settings perform extremely effective, for example, the top-1 accuracy on
ImageNet-1k validation set of MobileNetV3-large and ResNet50-D can be
significantly improved from 75.2% to 79% and 79.1% to 83%, respectively. We
have also thoroughly analyzed what are dominant factors that affect the
distillation performance and how they make a difference. Extensive downstream
computer vision tasks, including transfer learning, object detection and
semantic segmentation, can significantly benefit from the distilled pretrained
models. All our experiments are implemented based on PaddlePaddle, codes and a
series of improved pretrained models with ssld suffix are available in
PaddleClas.
- Abstract(参考訳): 近年,事前学習モデルがニューラルネットワークの性能にどのように影響するかを明らかにする研究が進められている。
自己スーパービジョンと半教師付き学習技術はコミュニティによって広く研究されており、強力な事前学習モデルを得る上で大きな可能性を秘めている。
しかし、これらのモデルは膨大なトレーニングコスト(何億ものイメージやトレーニングイテレーション)を必要とします。
本論文では,既設の大規模モデルから知識蒸留を行い,既存のベースラインネットワークを改善することを提案する。
教師モデルが生成するソフトラベルと人による注釈付きハードラベルの両方に整合性を持たなければならない既存の知識蒸留フレームワークとは異なり,本ソリューションは,教師モデルと整合性のある生徒モデルの予測のみを駆動することによって蒸留を行う。
それゆえ、我々の蒸留設定は手作業でラベル付けされたデータを取り除き、教師モデルの能力を最大限活用するために追加のラベル付きデータで訓練することができる。
例えば、MobileNetV3-largeとResNet50-DのImageNet-1k検証セットのtop-1精度は、それぞれ75.2%から79%、79.1%から83%に大幅に改善することができる。
また,蒸留性能に影響を及ぼす主要因と,その効果の違いについても徹底的に分析した。
転送学習、オブジェクト検出、セマンティックセグメンテーションを含む広範な下流コンピュータビジョンタスクは、蒸留された事前訓練されたモデルから大幅に利益を得ることができます。
すべての実験はPaddlePaddleに基づいて実施されており、コードとssld接尾辞付き事前訓練モデルのシリーズはPaddleClasで利用可能である。
関連論文リスト
- Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Establishing a stronger baseline for lightweight contrastive models [10.63129923292905]
最近の研究は、特別に設計された効率的なネットワークのための自己指導型コントラスト学習の性能劣化を報告している。
一般的な実践は、事前訓練された対照的な教師モデルを導入し、教師が生成した蒸留信号で軽量ネットワークを訓練することである。
本研究では,教師モデルの事前学習を使わずに,軽量コントラストモデルのための強力なベースラインを確立することを目的とする。
論文 参考訳(メタデータ) (2022-12-14T11:20:24Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Large-Scale Generative Data-Free Distillation [17.510996270055184]
本質的な正規化層の統計を利用して生成画像モデルを訓練する新しい方法を提案する。
提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。
ImageNetデータセットにスケールすることができますが、私たちの知る限り、データフリー環境で生成モデルを使用することは一度もありません。
論文 参考訳(メタデータ) (2020-12-10T10:54:38Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。