論文の概要: Contrastive Masked Autoencoders are Stronger Vision Learners
- arxiv url: http://arxiv.org/abs/2207.13532v1
- Date: Wed, 27 Jul 2022 14:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:41:31.212928
- Title: Contrastive Masked Autoencoders are Stronger Vision Learners
- Title(参考訳): コントラスト型マスクオートエンコーダは、より強力な視覚学習者である
- Authors: Zhicheng Huang, Xiaojie Jin, Chengze Lu, Qibin Hou, Ming-Ming Cheng,
Dongmei Fu, Xiaohui Shen, Jiashi Feng
- Abstract要約: Contrastive Masked Autoencoders (CMAE)は、より包括的で有能な視覚表現を学習するための、自己指導型事前学習手法である。
CMAEは、画像分類、セマンティックセグメンテーション、オブジェクト検出の高度に競争力のあるベンチマークにおいて、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 140.105749415298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modeling (MIM) has achieved promising results on various vision
tasks. However, the limited discriminability of learned representation
manifests there is still plenty to go for making a stronger vision learner.
Towards this goal, we propose Contrastive Masked Autoencoders (CMAE), a new
self-supervised pre-training method for learning more comprehensive and capable
vision representations. By elaboratively unifying contrastive learning (CL) and
masked image model (MIM) through novel designs, CMAE leverages their respective
advantages and learns representations with both strong instance
discriminability and local perceptibility. Specifically, CMAE consists of two
branches where the online branch is an asymmetric encoder-decoder and the
target branch is a momentum updated encoder. During training, the online
encoder reconstructs original images from latent representations of masked
images to learn holistic features. The target encoder, fed with the full
images, enhances the feature discriminability via contrastive learning with its
online counterpart. To make CL compatible with MIM, CMAE introduces two new
components, i.e. pixel shift for generating plausible positive views and
feature decoder for complementing features of contrastive pairs. Thanks to
these novel designs, CMAE effectively improves the representation quality and
transfer performance over its MIM counterpart. CMAE achieves the
state-of-the-art performance on highly competitive benchmarks of image
classification, semantic segmentation and object detection. Notably, CMAE-Base
achieves $85.3\%$ top-1 accuracy on ImageNet and $52.5\%$ mIoU on ADE20k,
surpassing previous best results by $0.7\%$ and $1.8\%$ respectively. Codes
will be made publicly available.
- Abstract(参考訳): masked image modeling (mim) は様々なビジョンタスクで有望な結果を得た。
しかし、学習表現の限定的な識別性は、より強力なビジョン学習者を作るにはまだまだ多くの道のりがあることを示している。
この目標に向けて,より包括的で有能な視覚表現を学習するための自己指導型事前学習手法であるContrastive Masked Autoencoders (CMAE)を提案する。
CMAEは、新しいデザインを通じて、比較学習(CL)とマスク画像モデル(MIM)を協調的に統一することにより、それぞれの利点を活用し、強いインスタンス識別性と局所認識性の両方で表現を学習する。
具体的には、オンラインブランチが非対称エンコーダデコーダであり、ターゲットブランチがモーメント更新エンコーダである2つのブランチで構成される。
トレーニング中、オンラインエンコーダはマスク付き画像の潜在表現からオリジナル画像を再構成し、全体像を学習する。
ターゲットエンコーダはフルイメージで入力され、オンラインと対照的な学習を通じて特徴識別性を高める。
clをmimと互換性を持たせるために、cmaeは2つの新しいコンポーネント、すなわち、可算なポジティブビューを生成するピクセルシフトと、コントラストペアの特徴を補完する機能デコーダを導入した。
これらの新しい設計のおかげで、CMAEはMIMよりも表現品質と転送性能を効果的に改善する。
cmaeは、画像分類、セマンティックセグメンテーション、オブジェクト検出といった高度な競合ベンチマークで最先端のパフォーマンスを達成している。
注目すべきは、cmae-baseはimagenetで85.3\%$ top-1精度、ade20kで52.5\%$ miouを達成し、それぞれ0.7\%$と1.8\%$である。
コードは公開される予定だ。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition [140.22700085735215]
視覚行動認識のためのCMAEは、純粋なマスク付きオートエンコーダに基づいて、それよりも強力な特徴表現を生成することができる。
ハイブリッドアーキテクチャであるCMAE-Vは、Kinetics-400とSome-something V2データセットで82.2%と71.6%の精度を達成できる。
論文 参考訳(メタデータ) (2023-01-15T05:07:41Z) - Masked Contrastive Representation Learning [6.737710830712818]
本研究では,自己指導型視覚前訓練のためのMasked Contrastive Representation Learning(MACRL)を提案する。
我々は、サイムズネットワーク(すなわち、両方の枝のエンコーダ・デコーダ構造)に対して非対称な設定を採用する。
実験では、CIFAR-10、CIFAR-100、Tiny-ImageNet、および他の2つのImageNetサブセットを含む様々なビジョンベンチマークにおいて、MACRLが優れた結果を示す。
論文 参考訳(メタデータ) (2022-11-11T05:32:28Z) - Improvements to Self-Supervised Representation Learning for Masked Image
Modeling [0.0]
本稿では,マスク画像モデリング(MIM)パラダイムの改良について検討する。
MIMパラダイムにより、入力画像のマスキングとマスク部分のアンマスク部分の予測により、モデルが画像の主オブジェクトの特徴を学習することができる。
我々は新しいモデルであるContrastive Masked AutoEncoders (CMAE)を提案する。
論文 参考訳(メタデータ) (2022-05-21T09:45:50Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。