論文の概要: SimMIM: A Simple Framework for Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2111.09886v1
- Date: Thu, 18 Nov 2021 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 15:09:20.807592
- Title: SimMIM: A Simple Framework for Masked Image Modeling
- Title(参考訳): SimMIM: マスク画像モデリングのためのシンプルなフレームワーク
- Authors: Zhenda Xie and Zheng Zhang and Yue Cao and Yutong Lin and Jianmin Bao
and Zhuliang Yao and Qi Dai and Han Hu
- Abstract要約: 本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimについて述べる。
フレームワークの主要なコンポーネントについて検討し、各コンポーネントのシンプルな設計が、非常に強力な表現学習性能を示した。
また、このアプローチを利用して3Bモデルのトレーニングをしやすくし、従来の4つの代表的なビジョンベンチマークよりも40ドル安いデータで、最先端の4つのビジョンベンチマークを実現しています。
- 参考スコア(独自算出の注目度): 29.015777125540613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents SimMIM, a simple framework for masked image modeling. We
simplify recently proposed related approaches without special designs such as
block-wise masking and tokenization via discrete VAE or clustering. To study
what let the masked image modeling task learn good representations, we
systematically study the major components in our framework, and find that
simple designs of each component have revealed very strong representation
learning performance: 1) random masking of the input image with a moderately
large masked patch size (e.g., 32) makes a strong pre-text task; 2) predicting
raw pixels of RGB values by direct regression performs no worse than the patch
classification approaches with complex designs; 3) the prediction head can be
as light as a linear layer, with no worse performance than heavier ones. Using
ViT-B, our approach achieves 83.8% top-1 fine-tuning accuracy on ImageNet-1K by
pre-training also on this dataset, surpassing previous best approach by +0.6%.
When applied on a larger model of about 650 million parameters, SwinV2-H, it
achieves 87.1% top-1 accuracy on ImageNet-1K using only ImageNet-1K data. We
also leverage this approach to facilitate the training of a 3B model
(SwinV2-G), that by $40\times$ less data than that in previous practice, we
achieve the state-of-the-art on four representative vision benchmarks. The code
and models will be publicly available at https://github.com/microsoft/SimMIM.
- Abstract(参考訳): 本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimMIMを提案する。
ブロックワイドマスキングや,個別のVAEやクラスタリングによるトークン化といった特別な設計を伴わない,最近提案された関連するアプローチを単純化する。
マスク画像モデリングタスクが優れた表現を学習させる方法を検討するため,我々は,フレームワークの主要コンポーネントを体系的に研究し,各コンポーネントのシンプルな設計により,非常に強力な表現学習性能が明らかにされていることを見出した。
2)直接回帰によるrgb値の生画素の予測は,複雑な設計によるパッチ分類アプローチに劣らない。
3) 予測ヘッドは線形層と同じくらい軽量であり, 重いものほど性能が悪くない。
ViT-Bを用いて、このデータセット上でも事前トレーニングを行うことで、ImageNet-1Kの83.8%の微調整精度を達成し、以前のベストアプローチを+0.6%上回る結果となった。
約6億5000万のパラメータであるSwinV2-Hのより大きなモデルに適用すると、ImageNet-1Kのデータのみを使用して、ImageNet-1K上で87.1%のトップ1精度を達成する。
また、この手法を利用して3Bモデル(SwinV2-G)のトレーニングをしやすくし、40\times$それよりも少ないデータで、4つの代表的なビジョンベンチマークの最先端を実現する。
コードとモデルはhttps://github.com/microsoft/SimMIM.comで公開される。
関連論文リスト
- Keypoint Aware Masked Image Modelling [0.34530027457862006]
KAMIMは16.12%から33.97%に改善され、ImageNet-1Kデータセットで同じ数のエポックでトレーニングされた際には76.78%から77.3%まで微調整精度が向上した。
また,KAMIMを用いて訓練したViT-Bの学習表現を解析し,その行動に関する対照的な学習と同様の行動を示す。
論文 参考訳(メタデータ) (2024-07-18T19:41:46Z) - Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Combined Scaling for Zero-shot Transfer Learning [146.0851484769142]
我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,85.7%のトップ1の精度を達成できるBASICと組み合わせたスケーリング手法を提案する。
この精度はCLIPとALIGNの9.3%を超える。
我々のモデルは、ロバストネスベンチマークの大幅な改善も示しています。
論文 参考訳(メタデータ) (2021-11-19T05:25:46Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。