論文の概要: Robust Representation Learning in Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2602.03531v1
- Date: Tue, 03 Feb 2026 13:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.47797
- Title: Robust Representation Learning in Masked Autoencoders
- Title(参考訳): マスクオートエンコーダにおけるロバスト表現学習
- Authors: Anika Shrivastava, Renu Rameshan, Samar Agnihotri,
- Abstract要約: Masked Autoencoders (MAEs) は画像分類タスクにおいて印象的な性能を発揮するが、学習した内部表現はあまり理解されていない。
この研究は、MAEの強力な下流分類性能を理解するために始まった。
- 参考スコア(独自算出の注目度): 2.599882743586164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoders (MAEs) achieve impressive performance in image classification tasks, yet the internal representations they learn remain less understood. This work started as an attempt to understand the strong downstream classification performance of MAE. In this process we discover that representations learned with the pretraining and fine-tuning, are quite robust - demonstrating a good classification performance in the presence of degradations, such as blur and occlusions. Through layer-wise analysis of token embeddings, we show that pretrained MAE progressively constructs its latent space in a class-aware manner across network depth: embeddings from different classes lie in subspaces that become increasingly separable. We further observe that MAE exhibits early and persistent global attention across encoder layers, in contrast to standard Vision Transformers (ViTs). To quantify feature robustness, we introduce two sensitivity indicators: directional alignment between clean and perturbed embeddings, and head-wise retention of active features under degradations. These studies help establish the robust classification performance of MAEs.
- Abstract(参考訳): Masked Autoencoders (MAEs) は画像分類タスクにおいて印象的な性能を発揮するが、学習した内部表現はあまり理解されていない。
この研究は、MAEの強力な下流分類性能を理解するために始まった。
このプロセスでは、事前学習と微調整によって学習した表現が、非常に堅牢であることを発見し、ぼやけや閉塞といった劣化の有無で優れた分類性能を示す。
トークン埋め込みの階層的解析を通して、事前学習されたMAEは、ネットワーク深度をまたいだクラス認識の方法で、段階的に潜伏空間を構築していることを示す。
さらに、MAEは、標準ビジョントランスフォーマー(ViT)とは対照的に、エンコーダ層全体にわたる早期かつ永続的なグローバルな関心を示す。
特徴のロバスト性を定量化するために, 清浄な埋設物と摂動型の埋設物との配向と, 劣化時の機能的特徴の頭部的保持という2つの感度指標を導入する。
これらの研究は、MAEの堅牢な分類性能を確立するのに役立つ。
関連論文リスト
- Revealing the Attention Floating Mechanism in Masked Diffusion Models [52.74142815156738]
マスク付き拡散モデル(MDMs)は、双方向の注意とデノナイジングプロセスを活用する。
本稿では,MDMにおける注意行動について検討し,注意浮動現象を明らかにした。
論文 参考訳(メタデータ) (2026-01-12T09:10:05Z) - Mask & Match: Learning to Recognize Handwritten Math with Self-Supervised Attention [0.19116784879310025]
我々は手書き数式(HMER)の認識のための自己教師型学習フレームワークを提案する。
我々のアプローチは、大域的および局所的なコントラスト的損失の組み合わせを用いて、画像エンコーダを事前訓練することから始まる。
この研究の重要な貢献は、プログレッシブな空間マスキング戦略を用いて訓練された、新しい自己監督型アテンションネットワークである。
論文 参考訳(メタデータ) (2025-08-08T08:11:36Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Learning from Mistakes: Self-Regularizing Hierarchical Representations
in Point Cloud Semantic Segmentation [15.353256018248103]
LiDARセマンティックセマンティックセマンティクスは、きめ細かいシーン理解を実現するために注目を集めている。
本稿では、標準モデルから派生した分類ミスタケス(LEAK)からLEArnを分離する粗大な設定を提案する。
我々のLEAKアプローチは非常に一般的で、どんなセグメンテーションアーキテクチャにもシームレスに適用できます。
論文 参考訳(メタデータ) (2023-01-26T14:52:30Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。
本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。
潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Can Semantic Labels Assist Self-Supervised Visual Representation
Learning? [194.1681088693248]
近隣環境におけるコントラスト調整(SCAN)という新しいアルゴリズムを提案する。
一連のダウンストリームタスクにおいて、SCANは従来の完全教師付きおよび自己教師付きメソッドよりも優れたパフォーマンスを達成する。
本研究は, セマンティックラベルが自己指導的手法の補助に有用であることを明らかにする。
論文 参考訳(メタデータ) (2020-11-17T13:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。