論文の概要: Efficient Self-supervised Vision Pretraining with Local Masked
Reconstruction
- arxiv url: http://arxiv.org/abs/2206.00790v1
- Date: Wed, 1 Jun 2022 22:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:00:15.937454
- Title: Efficient Self-supervised Vision Pretraining with Local Masked
Reconstruction
- Title(参考訳): 局所的仮面再建による自己監督型視覚訓練
- Authors: Jun Chen, Ming Hu, Boyang Li, Mohamed Elhoseiny
- Abstract要約: Local masked reconstruction (LoMaR) は、単純な Transformer エンコーダ上の 7$times$7 パッチの小さなウィンドウ内でマスク付き再構築を行う、シンプルだが効果的なアプローチである。
LoMaRはImageNet-1K分類で84.1%の精度に達し、MAEを0.5%上回った。
LoMaRは特に高解像度画像の事前訓練において効率が良く、例えば、MAEよりも3.1$times$速く、448$times$448画像の分類精度は0.2%高い。
- 参考スコア(独自算出の注目度): 29.178407221878867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning for computer vision has achieved tremendous progress
and improved many downstream vision tasks such as image classification,
semantic segmentation, and object detection. Among these, generative
self-supervised vision learning approaches such as MAE and BEiT show promising
performance. However, their global masked reconstruction mechanism is
computationally demanding. To address this issue, we propose local masked
reconstruction (LoMaR), a simple yet effective approach that performs masked
reconstruction within a small window of 7$\times$7 patches on a simple
Transformer encoder, improving the trade-off between efficiency and accuracy
compared to global masked reconstruction over the entire image. Extensive
experiments show that LoMaR reaches 84.1% top-1 accuracy on ImageNet-1K
classification, outperforming MAE by 0.5%. After finetuning the pretrained
LoMaR on 384$\times$384 images, it can reach 85.4% top-1 accuracy, surpassing
MAE by 0.6%. On MS COCO, LoMaR outperforms MAE by 0.5 $\text{AP}^\text{box}$ on
object detection and 0.5 $\text{AP}^\text{mask}$ on instance segmentation.
LoMaR is especially more computation-efficient on pretraining high-resolution
images, e.g., it is 3.1$\times$ faster than MAE with 0.2% higher classification
accuracy on pretraining 448$\times$448 images. This local masked reconstruction
learning mechanism can be easily integrated into any other generative
self-supervised learning approach. Our code will be publicly available.
- Abstract(参考訳): コンピュータビジョンのための自己教師あり学習は非常に進歩し、画像分類、意味セグメンテーション、オブジェクト検出など下流の視覚タスクの多くを改善した。
これらのうち、MAEやBEiTのような自己監督型視覚学習手法は有望な性能を示す。
しかし、彼らのグローバルマスクの再構築メカニズムは計算的に要求されている。
この問題を解決するために,ローカルマスク再構成 (LoMaR) を提案する。この手法は,簡単なトランスフォーマーエンコーダの7$\times$7パッチの小さなウィンドウ内でマスク再構成を行い,画像全体に対するグローバルマスク再構成と比較して効率と精度のトレードオフを改善する。
大規模な実験により、LoMaRはImageNet-1Kの分類において84.1%の精度に達し、MAEの0.5%を上回った。
384$\times$384で事前訓練されたLoMaRを微調整した後、85.4%の精度でMAEを0.6%上回る。
MS COCOでは、LoMaRはオブジェクト検出で0.5$\text{AP}^\text{box}$、インスタンスセグメンテーションで0.5$\text{AP}^\text{mask}$でMAEを上回っている。
例えば448$\times$448画像の事前訓練において、分類精度が0.2%高いmaeよりも3.1$\times$高速である。
この局所マスク再構築学習機構は、他の生成的自己教師付き学習アプローチと容易に統合することができる。
私たちのコードは公開されます。
関連論文リスト
- Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - DeepMIM: Deep Supervision for Masked Image Modeling [46.01916629713594]
深層学習の初期の画像分類において、深層管理が広く用いられた。
正規化技術と残差接続が出現すると、画像分類の深い監督は徐々に段階的に消えていった。
マスク・アンド・予測方式を用いてビジョン・トランスフォーマー(ViT)を事前訓練するマスクド・イメージ・モデリング(MIM)の深い監督について検討する。
論文 参考訳(メタデータ) (2023-03-15T17:59:55Z) - Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature
Mimicking [35.11620617064127]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。
本稿では,事前学習中に干渉なく高次・低次表現を共同学習するMR-MAEを提案する。
ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースが、微調整後の85.8%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2023-03-09T18:28:18Z) - A simple, efficient and scalable contrastive masked autoencoder for
learning visual representations [21.440853288058452]
視覚表現の自己教師型学習のための,シンプルで効率的かつスケーラブルな手法であるCANを紹介する。
我々のフレームワークは、(C)コントラスト学習、(A)マスク付きオートエンコーダ、(N)拡散モデルで使用されるノイズ予測アプローチの最小かつ概念的にクリーンな合成である。
論文 参考訳(メタデータ) (2022-10-30T16:21:22Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - SimMIM: A Simple Framework for Masked Image Modeling [29.015777125540613]
本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimについて述べる。
フレームワークの主要なコンポーネントについて検討し、各コンポーネントのシンプルな設計が、非常に強力な表現学習性能を示した。
また、このアプローチを利用して3Bモデルのトレーニングをしやすくし、従来の4つの代表的なビジョンベンチマークよりも40ドル安いデータで、最先端の4つのビジョンベンチマークを実現しています。
論文 参考訳(メタデータ) (2021-11-18T18:59:45Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。