論文の概要: Mixed Autoencoder for Self-supervised Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2303.17152v1
- Date: Thu, 30 Mar 2023 05:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:26:12.651880
- Title: Mixed Autoencoder for Self-supervised Visual Representation Learning
- Title(参考訳): 自己教師型視覚表現学習のための混合オートエンコーダ
- Authors: Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung
- Abstract要約: Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
- 参考スコア(独自算出の注目度): 58.97524107600015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoder (MAE) has demonstrated superior performance on various
vision tasks via randomly masking image patches and reconstruction. However,
effective data augmentation strategies for MAE still remain open questions,
different from those in contrastive learning that serve as the most important
part. This paper studies the prevailing mixing augmentation for MAE. We first
demonstrate that naive mixing will in contrast degenerate model performance due
to the increase of mutual information (MI). To address, we propose homologous
recognition, an auxiliary pretext task, not only to alleviate the MI
increasement by explicitly requiring each patch to recognize homologous
patches, but also to perform object-aware self-supervised pre-training for
better downstream dense perception performance. With extensive experiments, we
demonstrate that our proposed Mixed Autoencoder (MixedAE) achieves the
state-of-the-art transfer results among masked image modeling (MIM)
augmentations on different downstream tasks with significant efficiency.
Specifically, our MixedAE outperforms MAE by +0.3% accuracy, +1.7 mIoU and +0.9
AP on ImageNet-1K, ADE20K and COCO respectively with a standard ViT-Base.
Moreover, MixedAE surpasses iBOT, a strong MIM method combined with instance
discrimination, while accelerating training by 2x. To our best knowledge, this
is the very first work to consider mixing for MIM from the perspective of
pretext task design. Code will be made available.
- Abstract(参考訳): Masked Autoencoder (MAE)は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
しかしながら、maeの効果的なデータ拡張戦略は依然としてオープンな質問であり、最も重要な部分となる対照的な学習の方法とは異なる。
本稿では,MAEの混合促進効果について検討する。
まず, 相互情報(mi)の増加により, ナイーブ混合が縮退するモデル性能を示す。
そこで本研究では,各パッチに対して,同種パッチの認識を明示的に要求するだけでなく,下流の高密度認識性能を向上させるために,オブジェクト認識による事前学習を行うことにより,MI増加を緩和する。
大規模な実験により,提案したMixedAE (MixedAE) が,様々な下流タスクにおけるマスク画像モデリング (MIM) 強化における最先端の転送結果を実現することを示す。
具体的には、imagenet-1k, ade20k, coco 上の +0.3% の精度、 +1.7 miou と +0.9 ap をそれぞれ標準 vit ベースで上回っている。
さらに、MIM法とインスタンス識別を組み合わせた強力なMIM法であるiBOTを超え、トレーニングを2倍に加速する。
私たちの知る限りでは、プレテキストタスク設計の観点からMIMの混合を検討するのはこれが初めてです。
コードは利用可能になる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders [21.849681446573257]
再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
論文 参考訳(メタデータ) (2022-10-15T17:36:03Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Contrastive Masked Autoencoders are Stronger Vision Learners [114.16568579208216]
Contrastive Masked Autoencoders (CMAE)は、より包括的で有能な視覚表現を学習するための、自己指導型事前学習手法である。
CMAEは、画像分類、セマンティックセグメンテーション、オブジェクト検出の高度に競争力のあるベンチマークにおいて、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-27T14:04:22Z) - SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners [20.846232536796578]
自己教師型マスケ自動エンコーダ(MAE)は、その印象的な表現学習能力に対して前例のない注目を集めている。
本稿では、教師付き分類分岐を追加することにより、完全に教師付き設定まで拡張する。
提案されたSupervised MAE (SupMAE) は、すべてのイメージパッチを使用する標準的な教師付き事前トレーニングとは異なり、分類のための画像パッチの可視サブセットのみを利用する。
論文 参考訳(メタデータ) (2022-05-28T23:05:03Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。