論文の概要: i-MAE: Are Latent Representations in Masked Autoencoders Linearly
Separable?
- arxiv url: http://arxiv.org/abs/2210.11470v1
- Date: Thu, 20 Oct 2022 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:21:30.966322
- Title: i-MAE: Are Latent Representations in Masked Autoencoders Linearly
Separable?
- Title(参考訳): i-MAE: マスクオートエンコーダの潜在表現は線形分離可能か?
- Authors: Kevin Zhang and Zhiqiang Shen
- Abstract要約: Masked Image Modeling (MIM) は視覚領域における自己教師付き事前学習の手法として、強力で一般的なものと見なされている。
本稿では,2方向画像再構成と蒸留損失を伴う潜在特徴再構成を併用した簡易かつ効果的な解釈可能なMAE (i-MAE) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.048478555972967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modeling (MIM) has been recognized as a strong and popular
self-supervised pre-training approach in the vision domain. However, the
interpretability of the mechanism and properties of the learned representations
by such a scheme are so far not well-explored. In this work, through
comprehensive experiments and empirical studies on Masked Autoencoders (MAE),
we address two critical questions to explore the behaviors of the learned
representations: (i) Are the latent representations in Masked Autoencoders
linearly separable if the input is a mixture of two images instead of one? This
can be concrete evidence used to explain why MAE-learned representations have
superior performance on downstream tasks, as proven by many literature
impressively. (ii) What is the degree of semantics encoded in the latent
feature space by Masked Autoencoders? To explore these two problems, we propose
a simple yet effective Interpretable MAE (i-MAE) framework with a two-way image
reconstruction and a latent feature reconstruction with distillation loss to
help us understand the behaviors inside MAE's structure. Extensive experiments
are conducted on CIFAR-10/100, Tiny-ImageNet and ImageNet-1K datasets to verify
the observations we discovered. Furthermore, in addition to qualitatively
analyzing the characteristics of the latent representations, we examine the
existence of linear separability and the degree of semantics in the latent
space by proposing two novel metrics. The surprising and consistent results
across the qualitative and quantitative experiments demonstrate that i-MAE is a
superior framework design for interpretability research of MAE frameworks, as
well as achieving better representational ability. Code is available at
https://github.com/vision-learning-acceleration-lab/i-mae.
- Abstract(参考訳): Masked Image Modeling (MIM) は視覚領域における自己監督型事前学習手法として、強力で一般的なものと考えられている。
しかしながら、そのようなスキームによる学習表現のメカニズムと特性の解釈は、今のところは十分に研究されていない。
本研究では,masked Autoencoders(MAE)に関する総合的な実験と実証研究を通じて,学習された表現の振る舞いを探索する2つの重要な疑問に対処する。
(i)入力が1つではなく2つの画像の混合である場合、マスケオートエンコーダの潜伏表現は線形分離可能か?
これは、多くの文献で顕著に証明されているように、MAEが学習した表現が下流のタスクに優れたパフォーマンスを持つ理由を説明するための具体的な証拠である。
(ii)マスキングオートエンコーダによって潜在特徴空間にエンコードされる意味論の度合いは?
これら2つの問題を探索するために,2方向画像再構成と蒸留損失を伴う潜在特徴再構成を併用した,シンプルで効果的な解釈可能なMAE(i-MAE)フレームワークを提案する。
cifar-10/100、tiny-imagenet、imagenet-1kデータセットで広範な実験を行い、観測結果の検証を行った。
さらに, 潜在表現の特徴を質的に解析することに加えて, 2つの新しい指標を提案することにより, 潜在空間における線形分離性と意味論の程度について検討する。
定性的かつ定量的な実験における驚きと一貫性のある結果は、i-MAEがMAEフレームワークの解釈可能性研究の優れたフレームワーク設計であり、表現能力の向上を図っている。
コードはhttps://github.com/vision-learning-acceleration-lab/i-maeで入手できる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation [13.013776924941205]
SemanticMIMは、一般的な視覚表現のためのマスク付き画像モデリング(MIM)とコントラスト学習(CL)の利点を統合するためのフレームワークである。
我々はCLとMIMの徹底的な比較分析を行い、それらの相補的優位性は2つの相、すなわち圧縮と再構成から生じることを明らかにした。
我々は,SemanticMIMがCLとMIMの利点を効果的に実現し,性能と特徴線形分離性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-06-15T15:39:32Z) - Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文 参考訳(メタデータ) (2023-11-08T16:59:26Z) - Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders [24.73294590182861]
Masked Autoencoding (MAE) は視覚と言語の違いである。
NLPの言葉とは異なり、画像の意味的な分解の欠如は、依然として視覚と言語の間にMAEを異なるものにしている。
意味情報をMAEの学習プロセスに統合するセマンティックガイド型マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-21T09:08:32Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。