論文の概要: Masked Autoencoders Enable Efficient Knowledge Distillers
- arxiv url: http://arxiv.org/abs/2208.12256v1
- Date: Thu, 25 Aug 2022 17:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:37:19.472089
- Title: Masked Autoencoders Enable Efficient Knowledge Distillers
- Title(参考訳): 効率的な知識蒸留が可能なマスクオートエンコーダ
- Authors: Yutong Bai, Zeyu Wang, Junfei Xiao, Chen Wei, Huiyu Wang, Alan Yuille,
Yuyin Zhou, Cihang Xie
- Abstract要約: 本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。
教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。
極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
- 参考スコア(独自算出の注目度): 31.606287119666572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the potential of distilling knowledge from pre-trained
models, especially Masked Autoencoders. Our approach is simple: in addition to
optimizing the pixel reconstruction loss on masked inputs, we minimize the
distance between the intermediate feature map of the teacher model and that of
the student model. This design leads to a computationally efficient knowledge
distillation framework, given 1) only a small visible subset of patches is
used, and 2) the (cumbersome) teacher model only needs to be partially
executed, \ie, forward propagate inputs through the first few layers, for
obtaining intermediate feature maps. Compared to directly distilling fine-tuned
models, distilling pre-trained models substantially improves downstream
performance. For example, by distilling the knowledge from an MAE pre-trained
ViT-L into a ViT-B, our method achieves 84.0% ImageNet top-1 accuracy,
outperforming the baseline of directly distilling a fine-tuned ViT-L by 1.2%.
More intriguingly, our method can robustly distill knowledge from teacher
models even with extremely high masking ratios: e.g., with 95% masking ratio
where merely TEN patches are visible during distillation, our ViT-B
competitively attains a top-1 ImageNet accuracy of 83.6%; surprisingly, it can
still secure 82.4% top-1 ImageNet accuracy by aggressively training with just
FOUR visible patches (98% masking ratio). The code and models are publicly
available at https://github.com/UCSC-VLAA/DMAE.
- Abstract(参考訳): 本稿では,事前学習モデル,特にマスク付きオートエンコーダから知識を蒸留する可能性について検討する。
提案手法は,マスク入力における画素再構成損失の最適化に加えて,教師モデルの中間特徴写像と学生モデルの距離を最小化する。
この設計は 計算効率の良い 知識蒸留の枠組みをもたらします
1) パッチの小さな可視部分のみを使用し、
2)(面倒な)教師モデルは、中間的特徴マップを得るために、最初の数層を通して入力を転送する、部分的に実行されるだけでよい。
微調整モデルの直接蒸留と比較すると、事前訓練されたモデルの蒸留は下流の性能を大幅に向上させる。
例えば、事前訓練したViT-Lの知識をViT-Bに蒸留することにより、84.0%のImageNet top-1精度を達成し、微調整したViT-Lを直接蒸留する基準線を1.2%上回る。
さらに興味深いことに、我々の方法では、非常に高いマスキング比でも教師モデルから知識をしっかりと抽出することができる。例えば、95%のマスキング比では、蒸留中にTENパッチだけが見えるが、VT-Bは競争的にトップ-1イメージネットの精度83.6%に達し、驚くべきことに、FOUR可視パッチだけでアグレッシブにトレーニングすることで、82.4%のトップ-1イメージネットの精度を確保できる(98%マスキング比)。
コードとモデルはhttps://github.com/UCSC-VLAA/DMAEで公開されている。
関連論文リスト
- Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - A simple, efficient and scalable contrastive masked autoencoder for
learning visual representations [21.440853288058452]
視覚表現の自己教師型学習のための,シンプルで効率的かつスケーラブルな手法であるCANを紹介する。
我々のフレームワークは、(C)コントラスト学習、(A)マスク付きオートエンコーダ、(N)拡散モデルで使用されるノイズ予測アプローチの最小かつ概念的にクリーンな合成である。
論文 参考訳(メタデータ) (2022-10-30T16:21:22Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet
without Tricks [57.69809561405253]
我々は、ImageNet上でバニラResNet-50を80%以上のTop-1精度に向上できるフレームワークを、トリックなしで導入する。
本手法は,バニラResNet-50を用いた224x224の1つの作物サイズを用いて,ImageNetの80.67%のトップ1精度を得る。
我々のフレームワークは常に69.76%から73.19%に改善されている。
論文 参考訳(メタデータ) (2020-09-17T17:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。