論文の概要: How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders
- arxiv url: http://arxiv.org/abs/2210.08344v2
- Date: Sun, 26 Mar 2023 06:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 02:18:22.473624
- Title: How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders
- Title(参考訳): マスクの重要性:マスク付きオートエンコーダの理論的理解に向けて
- Authors: Qi Zhang, Yifei Wang, Yisen Wang
- Abstract要約: 再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
- 参考スコア(独自算出の注目度): 21.849681446573257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders (MAE) based on a reconstruction task have risen to be a
promising paradigm for self-supervised learning (SSL) and achieve
state-of-the-art performance across different benchmark datasets. However,
despite its impressive empirical success, there is still limited theoretical
understanding of it. In this paper, we propose a theoretical understanding of
how masking matters for MAE to learn meaningful features. We establish a close
connection between MAE and contrastive learning, which shows that MAE implicit
aligns the mask-induced positive pairs. Built upon this connection, we develop
the first downstream guarantees for MAE methods, and analyze the effect of mask
ratio. Besides, as a result of the implicit alignment, we also point out the
dimensional collapse issue of MAE, and propose a Uniformity-enhanced MAE
(U-MAE) loss that can effectively address this issue and bring significant
improvements on real-world datasets, including CIFAR-10, ImageNet-100, and
ImageNet-1K. Code is available at (https://github.com/zhangq327/U-MAE).
- Abstract(参考訳): 再構成タスクに基づくMasked Autoencoders(MAE)は、セルフ教師付き学習(SSL)と、さまざまなベンチマークデータセットで最先端のパフォーマンスを実現する上で、有望なパラダイムである。
しかし、その印象的な成功にもかかわらず、理論的な理解はまだ限られている。
本稿では,MAEが意味のある特徴を学習する上でマスキングがいかに重要であるかを理論的に理解する。
我々は,MAEとコントラスト学習の密接な関係を確立し,MAEがマスク誘発陽性対を暗黙的に整列させることを示す。
この接続に基づいて,MAE法の最初のダウンストリーム保証を開発し,マスク比の影響を解析する。
さらに、暗黙的なアライメントの結果、MAEの次元的崩壊問題も指摘し、この問題に効果的に対処し、CIFAR-10、ImageNet-100、ImageNet-1Kなどの実世界のデータセットに大幅な改善をもたらす、統一性強化MAE(U-MAE)損失を提案する。
コードはhttps://github.com/zhangq327/U-MAE)。
関連論文リスト
- Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Efficient Masked Autoencoders with Self-Consistency [46.60180434598024]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおいて、強力で一般的な自己教師付き事前学習手法として認識されている。
自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,MIMの事前学習効率の向上と整合性の向上を図る。
EMAEは、オブジェクト検出やセマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送性能を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly
Separable? [29.048478555972967]
Masked Image Modeling (MIM) は視覚領域における自己教師付き事前学習の手法として、強力で一般的なものと見なされている。
本稿では,2方向画像再構成と蒸留損失を伴う潜在特徴再構成を併用した簡易かつ効果的な解釈可能なMAE (i-MAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - How to Understand Masked Autoencoders [15.775716869623992]
Masked Autoencoders (MAE) の数学的理解を提供する統一理論フレームワークを提案する。
具体的には、重複しないドメイン分解設定の下で、積分カーネルを用いたMAEのパッチベースのアテンションアプローチを説明する。
研究コミュニティがMAEの大成功の主な理由をさらに理解するために,我々の枠組みに基づいて5つの疑問を提起し,演算子理論からの洞察を用いて数学的厳密さに答える。
論文 参考訳(メタデータ) (2022-02-08T06:15:07Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。