論文の概要: DeepMIM: Deep Supervision for Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2303.08817v1
- Date: Wed, 15 Mar 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 12:47:17.221541
- Title: DeepMIM: Deep Supervision for Masked Image Modeling
- Title(参考訳): DeepMIM: マスク画像モデリングのためのDeep Supervision
- Authors: Sucheng Ren,Fangyun Wei,Samuel Albanie,Zheng Zhang,Han Hu
- Abstract要約: 深層学習の初期の画像分類において、深層管理が広く用いられた。
正規化技術と残差接続が出現すると、画像分類の深い監督は徐々に段階的に消えていった。
マスク・アンド・予測方式を用いてビジョン・トランスフォーマー(ViT)を事前訓練するマスクド・イメージ・モデリング(MIM)の深い監督について検討する。
- 参考スコア(独自算出の注目度): 46.01916629713594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep supervision, which involves extra supervisions to the intermediate
features of a neural network, was widely used in image classification in the
early deep learning era since it significantly reduces the training difficulty
and eases the optimization like avoiding gradient vanish over the vanilla
training. Nevertheless, with the emergence of normalization techniques and
residual connection, deep supervision in image classification was gradually
phased out. In this paper, we revisit deep supervision for masked image
modeling (MIM) that pre-trains a Vision Transformer (ViT) via a
mask-and-predict scheme. Experimentally, we find that deep supervision drives
the shallower layers to learn more meaningful representations, accelerates
model convergence, and expands attention diversities. Our approach, called
DeepMIM, significantly boosts the representation capability of each layer. In
addition, DeepMIM is compatible with many MIM models across a range of
reconstruction targets. For instance, using ViT-B, DeepMIM on MAE achieves 84.2
top-1 accuracy on ImageNet, outperforming MAE by +0.6. By combining DeepMIM
with a stronger tokenizer CLIP, our model achieves state-of-the-art performance
on various downstream tasks, including image classification (85.6 top-1
accuracy on ImageNet-1K, outperforming MAE-CLIP by +0.8), object detection
(52.8 APbox on COCO) and semantic segmentation (53.1 mIoU on ADE20K). Code and
models are available at https://github.com/OliverRensu/DeepMIM.
- Abstract(参考訳): 深層監視はニューラルネットワークの中間的特徴に対する追加の監督を伴うが、学習の困難さを著しく軽減し、バニラトレーニングによる勾配消失を回避するなどの最適化を容易化するため、深層学習初期の画像分類において広く用いられていた。
それにもかかわらず、正規化技術と残差接続の出現により、画像分類の深い監督は徐々に廃止されていった。
本稿では,視覚トランスフォーマー(vit)をマスク・アンド・予測方式で事前学習するマスク画像モデリング(mim)の深い監督について再検討する。
実験的に、深い監督によってより浅い層がより意味のある表現を学習し、モデルの収束を加速し、注意の多様性を増大させることがわかった。
DeepMIMと呼ばれる私たちのアプローチは、各レイヤの表現能力を著しく向上させます。
さらに、DeepMIMは多くのMIMモデルと互換性があり、様々なリコンストラクションターゲットがある。
例えば、ViT-Bを使用すると、ImageNet上でDeepMIMは84.2のトップ-1の精度を達成し、MAEを+0.6で上回る。
DeepMIMとより強力なトークン化CLIPを組み合わせることで、画像分類(ImageNet-1Kの85.6トップ-1精度、MaE-CLIP+0.8パフォーマンス)、オブジェクト検出(COCOの52.8 APbox)、セマンティックセグメンテーション(ADE20Kの53.1 mIoU)など、さまざまなダウンストリームタスクにおける最先端のパフォーマンスを実現する。
コードとモデルはhttps://github.com/OliverRensu/DeepMIM.comで入手できる。
関連論文リスト
- TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Good helper is around you: Attention-driven Masked Image Modeling [12.961634455083775]
マスク付き画像モデリング(MIM)は自己教師あり学習において大きな可能性を示している。
我々は,textbfAttention-driven Masking and Throwing Strategy (AMT)を提案する。
AMTは、CIFAR-10/100、STL-10、Tiny ImageNet、ImageNet-1KでMAEの線形探索精度を$2.9%改善した。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。