論文の概要: MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet
without Tricks
- arxiv url: http://arxiv.org/abs/2009.08453v2
- Date: Fri, 19 Mar 2021 17:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 08:07:39.052002
- Title: MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet
without Tricks
- Title(参考訳): 食事v2: imagenetにおけるバニラresnet-50の80%以上の精度向上
- Authors: Zhiqiang Shen and Marios Savvides
- Abstract要約: 我々は、ImageNet上でバニラResNet-50を80%以上のTop-1精度に向上できるフレームワークを、トリックなしで導入する。
本手法は,バニラResNet-50を用いた224x224の1つの作物サイズを用いて,ImageNetの80.67%のトップ1精度を得る。
我々のフレームワークは常に69.76%から73.19%に改善されている。
- 参考スコア(独自算出の注目度): 57.69809561405253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a simple yet effective distillation framework that is able to
boost the vanilla ResNet-50 to 80%+ Top-1 accuracy on ImageNet without tricks.
We construct such a framework through analyzing the problems in the existing
classification system and simplify the base method ensemble knowledge
distillation via discriminators by: (1) adopting the similarity loss and
discriminator only on the final outputs and (2) using the average of softmax
probabilities from all teacher ensembles as the stronger supervision.
Intriguingly, three novel perspectives are presented for distillation: (1)
weight decay can be weakened or even completely removed since the soft label
also has a regularization effect; (2) using a good initialization for students
is critical; and (3) one-hot/hard label is not necessary in the distillation
process if the weights are well initialized. We show that such a
straight-forward framework can achieve state-of-the-art results without
involving any commonly-used techniques, such as architecture modification;
outside training data beyond ImageNet; autoaug/randaug; cosine learning rate;
mixup/cutmix training; label smoothing; etc. Our method obtains 80.67% top-1
accuracy on ImageNet using a single crop-size of 224x224 with vanilla
ResNet-50, outperforming the previous state-of-the-arts by a significant margin
under the same network structure. Our result can be regarded as a strong
baseline using knowledge distillation, and to our best knowledge, this is also
the first method that is able to boost vanilla ResNet-50 to surpass 80% on
ImageNet without architecture modification or additional training data. On
smaller ResNet-18, our distillation framework consistently improves from 69.76%
to 73.19%, which shows tremendous practical values in real-world applications.
Our code and models are available at: https://github.com/szq0214/MEAL-V2.
- Abstract(参考訳): 我々は,ImageNet 上でバニラ ResNet-50 を 8 % 以上の精度で向上できる,シンプルで効果的な蒸留フレームワークを紹介した。
既存の分類システムにおける問題を解析し,(1)類似度損失と識別器を最終出力にのみ適用し,(2)教師全員のソフトマックス確率の平均をより強力な監督力として利用することにより,知識蒸留を簡易化する枠組みを構築した。
興味深いことに,(1) 軟式ラベルも正則化効果を有するため,(1) 重量減衰を弱めるか,あるいは完全に除去する,(2) 学生に良い初期化を施すことが重要である,(3) 重量が十分に初期化されている場合, 蒸留工程において1ホット・ハードラベルは必要ない,という3つの新しい視点が提案されている。
このようなストレートフォワードフレームワークは,アーキテクチャ修正やimagenet以外の外部トレーニングデータ,autoaug/randaug,cosine学習率,mixup/cutmixトレーニング,ラベル平滑化など,一般的なテクニックを必要とせずに,最先端の成果を実現できる。
バニラResNet-50を用いた1つの作物サイズ224x224を用いて、ImageNet上の80.67%のトップ-1の精度を得る。
我々の研究結果は知識蒸留による強力なベースラインと見なすことができ、最も優れた知識を得るためには、バニラResNet-50をアーキテクチャ修正や追加のトレーニングデータなしでImageNet上で80%を超えるように向上させる最初の方法でもある。
より小さなResNet-18では、蒸留フレームワークが69.76%から73.19%に継続的に改善され、現実世界のアプリケーションで非常に実用的な価値が示される。
私たちのコードとモデルは、https://github.com/szq0214/meal-v2で利用可能です。
関連論文リスト
- A Simple and Generic Framework for Feature Distillation via Channel-wise
Transformation [35.233203757760066]
学習可能な非線形チャネルワイズ変換を提案し,教師モデルと生徒の特徴を一致させる。
本手法は,様々なコンピュータビジョンタスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-23T12:13:29Z) - Masked Autoencoders Enable Efficient Knowledge Distillers [31.606287119666572]
本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。
教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。
極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
論文 参考訳(メタデータ) (2022-08-25T17:58:59Z) - Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification [57.5041270212206]
本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。
BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
論文 参考訳(メタデータ) (2021-04-27T16:11:45Z) - DisCo: Remedy Self-supervised Learning on Lightweight Models with
Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。
最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。
単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文 参考訳(メタデータ) (2021-04-19T08:22:52Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - Fixing the train-test resolution discrepancy: FixEfficientNet [98.64315617109344]
本稿では,複数のトレーニング手順を用いて,効率的なNet画像分類器の性能解析を行う。
FixEfficientNetと呼ばれる結果のネットワークは、同じ数のパラメータで初期アーキテクチャを著しく上回る。
論文 参考訳(メタデータ) (2020-03-18T14:22:58Z) - Picking Winning Tickets Before Training by Preserving Gradient Flow [9.67608102763644]
効率的なトレーニングには,ネットワーク内の勾配流の保存が必要である,と我々は主張する。
CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNetにおいて, 提案手法の有効性を実験的に検討した。
論文 参考訳(メタデータ) (2020-02-18T05:14:47Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。