論文の概要: TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models
- arxiv url: http://arxiv.org/abs/2301.01296v1
- Date: Tue, 3 Jan 2023 18:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:49:07.094793
- Title: TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models
- Title(参考訳): TinyMIM: 蒸留MIM事前訓練モデルの実証的研究
- Authors: Sucheng Ren, Fangyun Wei, Zheng Zhang, Han Hu
- Abstract要約: マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
- 参考スコア(独自算出の注目度): 31.16595289223858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM) performs strongly in pre-training large vision
Transformers (ViTs). However, small models that are critical for real-world
applications cannot or only marginally benefit from this pre-training approach.
In this paper, we explore distillation techniques to transfer the success of
large MIM-based pre-trained models to smaller ones. We systematically study
different options in the distillation framework, including distilling targets,
losses, input, network regularization, sequential distillation, etc, revealing
that: 1) Distilling token relations is more effective than CLS token- and
feature-based distillation; 2) An intermediate layer of the teacher network as
target perform better than that using the last layer when the depth of the
student mismatches that of the teacher; 3) Weak regularization is preferred;
etc. With these findings, we achieve significant fine-tuning accuracy
improvements over the scratch MIM pre-training on ImageNet-1K classification,
using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4%
gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K
semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM
model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image
classification, which sets a new record for small vision models of the same
size and computation budget. This strong performance suggests an alternative
way for developing small vision Transformer models, that is, by exploring
better training methods rather than introducing inductive biases into
architectures as in most previous works. Code is available at
https://github.com/OliverRensu/TinyMIM.
- Abstract(参考訳): Masked Image Modeling (MIM) は、ViT (Pre-training Large Vision Transformer) において強く機能する。
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
本稿では,mimを用いた大規模事前学習モデルの成功を小型モデルに移す蒸留技術について検討する。
我々は, 蒸留対象, 損失, 入力, ネットワーク正規化, 逐次蒸留等を含む蒸留フレームワークの異なる選択肢を体系的に検討し, 以下の点を明らかにする。
1) 蒸留トークン関係は、clsトークン及び特徴ベースの蒸留よりも有効である。
2) 対象とする教員ネットワークの中間層は、生徒の深さが教師の深さと一致しない場合において、最終層を用いた場合よりも優れた性能を発揮する。
3) 弱規則化は望ましい。
これらの結果から,VT-Tiny,VT-Small,VT-baseの各モデルを用いて,ImageNet-1K分類のスクラッチMIMによる微調整精度を大幅に改善し,+4.2%/+2.4%/+1.4%のゲインを得た。
ベースサイズのtinymimモデルはae20kセマンティクスセグメンテーションにおいて52.2miouを達成しており、maeベースラインよりも+4.1高い。
我々のTinyMIMモデルは、ImageNet-1K画像分類において79.6%の精度を実現し、同じサイズと計算予算の小さなビジョンモデルのための新しい記録を樹立した。
この強力な性能は、以前のほとんどの作品のようにアーキテクチャに帰納的バイアスを導入するのではなく、より良いトレーニング方法を探求することで、小さなビジョントランスフォーマーモデルを開発するための代替手段を示唆している。
コードはhttps://github.com/OliverRensu/TinyMIM.comで入手できる。
関連論文リスト
- ScaleKD: Strong Vision Transformers Could Be Excellent Teachers [15.446480934024652]
本稿では, 簡便かつ効果的な知識蒸留法であるScaleKDを提案する。
本手法は,画像分類データセット上で,さまざまな畳み込みニューラルネットワーク(CNN),多層パーセプトロン(MLP),ViTアーキテクチャにまたがる学生のバックボーンを訓練することができる。
教師モデルやその事前学習データセットのサイズをスケールアップする際,提案手法は所望のスケーラブルな特性を示す。
論文 参考訳(メタデータ) (2024-11-11T08:25:21Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - Heterogeneous Generative Knowledge Distillation with Masked Image
Modeling [33.95780732124864]
Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。
我々は,MIMに基づくH-GKD (Heterogeneous Generative Knowledge Distillation) を開発した。
本手法は,異種教師モデルからデータの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。
論文 参考訳(メタデータ) (2023-09-18T08:30:55Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.564722905991776]
我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。
Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-25T03:01:37Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。