論文の概要: How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders
- arxiv url: http://arxiv.org/abs/2210.08344v2
- Date: Sun, 26 Mar 2023 06:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 02:18:22.473624
- Title: How Mask Matters: Towards Theoretical Understandings of Masked
Autoencoders
- Title(参考訳): マスクの重要性:マスク付きオートエンコーダの理論的理解に向けて
- Authors: Qi Zhang, Yifei Wang, Yisen Wang
- Abstract要約: 再構成タスクに基づくマスケ自動エンコーダ(MAE)は、自己教師型学習(SSL)の有望なパラダイムになってきた。
本稿では,MAEが意味のある特徴を学習する上で,マスキングがいかに重要であるかを理論的に理解する。
- 参考スコア(独自算出の注目度): 21.849681446573257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders (MAE) based on a reconstruction task have risen to be a
promising paradigm for self-supervised learning (SSL) and achieve
state-of-the-art performance across different benchmark datasets. However,
despite its impressive empirical success, there is still limited theoretical
understanding of it. In this paper, we propose a theoretical understanding of
how masking matters for MAE to learn meaningful features. We establish a close
connection between MAE and contrastive learning, which shows that MAE implicit
aligns the mask-induced positive pairs. Built upon this connection, we develop
the first downstream guarantees for MAE methods, and analyze the effect of mask
ratio. Besides, as a result of the implicit alignment, we also point out the
dimensional collapse issue of MAE, and propose a Uniformity-enhanced MAE
(U-MAE) loss that can effectively address this issue and bring significant
improvements on real-world datasets, including CIFAR-10, ImageNet-100, and
ImageNet-1K. Code is available at (https://github.com/zhangq327/U-MAE).
- Abstract(参考訳): 再構成タスクに基づくMasked Autoencoders(MAE)は、セルフ教師付き学習(SSL)と、さまざまなベンチマークデータセットで最先端のパフォーマンスを実現する上で、有望なパラダイムである。
しかし、その印象的な成功にもかかわらず、理論的な理解はまだ限られている。
本稿では,MAEが意味のある特徴を学習する上でマスキングがいかに重要であるかを理論的に理解する。
我々は,MAEとコントラスト学習の密接な関係を確立し,MAEがマスク誘発陽性対を暗黙的に整列させることを示す。
この接続に基づいて,MAE法の最初のダウンストリーム保証を開発し,マスク比の影響を解析する。
さらに、暗黙的なアライメントの結果、MAEの次元的崩壊問題も指摘し、この問題に効果的に対処し、CIFAR-10、ImageNet-100、ImageNet-1Kなどの実世界のデータセットに大幅な改善をもたらす、統一性強化MAE(U-MAE)損失を提案する。
コードはhttps://github.com/zhangq327/U-MAE)。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - How to Understand Masked Autoencoders [15.775716869623992]
Masked Autoencoders (MAE) の数学的理解を提供する統一理論フレームワークを提案する。
具体的には、重複しないドメイン分解設定の下で、積分カーネルを用いたMAEのパッチベースのアテンションアプローチを説明する。
研究コミュニティがMAEの大成功の主な理由をさらに理解するために,我々の枠組みに基づいて5つの疑問を提起し,演算子理論からの洞察を用いて数学的厳密さに答える。
論文 参考訳(メタデータ) (2022-02-08T06:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。