論文の概要: Understanding Masked Autoencoders From a Local Contrastive Perspective
- arxiv url: http://arxiv.org/abs/2310.01994v1
- Date: Tue, 3 Oct 2023 12:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 14:29:32.765142
- Title: Understanding Masked Autoencoders From a Local Contrastive Perspective
- Title(参考訳): 局所的コントラストからみたマスクオートエンコーダの理解
- Authors: Xiaoyu Yue, Lei Bai, Meng Wei, Jiangmiao Pang, Xihui Liu, Luping Zhou,
Wanli Ouyang
- Abstract要約: Masked AutoEncoder(MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己教師型学習の分野に革命をもたらした。
本稿では,再構成に基づくMAEを局所的な地域レベルのコントラスト学習形式に再構成する理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 80.57196495601826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked AutoEncoder(MAE) has revolutionized the field of self-supervised
learning with its simple yet effective masking and reconstruction strategies.
However, despite achieving state-of-the-art performance across various
downstream vision tasks, the underlying mechanisms that drive MAE's efficacy
are less well-explored compared to the canonical contrastive learning paradigm.
In this paper, we explore a new perspective to explain what truly contributes
to the "rich hidden representations inside the MAE". Firstly, concerning MAE's
generative pretraining pathway, with a unique encoder-decoder architecture to
reconstruct images from aggressive masking, we conduct an in-depth analysis of
the decoder's behaviors. We empirically find that MAE's decoder mainly learns
local features with a limited receptive field, adhering to the well-known
Locality Principle. Building upon this locality assumption, we propose a
theoretical framework that reformulates the reconstruction-based MAE into a
local region-level contrastive learning form for improved understanding.
Furthermore, to substantiate the local contrastive nature of MAE, we introduce
a Siamese architecture that combines the essence of MAE and contrastive
learning without masking and explicit decoder, which sheds light on a unified
and more flexible self-supervised learning framework.
- Abstract(参考訳): masked autoencoder(mae)は、単純で効果的なマスクと再構築戦略によって、自己監督学習の分野に革命をもたらした。
しかし、様々なダウンストリーム視覚タスクにおける最先端性能を達成しているにもかかわらず、MAEの有効性を駆動する基盤メカニズムは、標準的なコントラッシブ学習パラダイムに比べてあまりよく研究されていない。
本稿では,「MAE内部の豊かな隠蔽表現」に真に寄与するものを説明するために,新たな視点を探求する。
まず,攻撃的マスキングから画像を再構成する独自のエンコーダ・デコーダアーキテクチャにより,MAEの生成前訓練経路について,デコーダの動作を詳細に解析する。
maeのデコーダは、よく知られた局所性原理に固執して、限定的な受容領域で主に局所的な特徴を学習する。
この局所性仮定に基づいて、再構築に基づくMAEを地域レベルのコントラスト学習形式に再構成し、理解を向上させる理論的枠組みを提案する。
さらに,MAEの局所的なコントラスト特性を実証するために,マスクや明示的なデコーダを使わずに,MAEの本質とコントラスト学習を組み合わせ,統一的で柔軟な自己教師型学習フレームワークに光を当てる,シームズアーキテクチャを導入する。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。
本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。
潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders [21.849681446573257]
再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
論文 参考訳(メタデータ) (2022-10-15T17:36:03Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。
我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。
このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。