論文の概要: SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners
- arxiv url: http://arxiv.org/abs/2205.14540v3
- Date: Sun, 21 Jan 2024 02:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 00:26:34.965557
- Title: SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners
- Title(参考訳): supmae:supervised masked autoencoderは効率的な視覚学習者
- Authors: Feng Liang, Yangguang Li, Diana Marculescu
- Abstract要約: 自己教師型マスケ自動エンコーダ(MAE)は、その印象的な表現学習能力に対して前例のない注目を集めている。
本稿では、教師付き分類分岐を追加することにより、完全に教師付き設定まで拡張する。
提案されたSupervised MAE (SupMAE) は、すべてのイメージパッチを使用する標準的な教師付き事前トレーニングとは異なり、分類のための画像パッチの可視サブセットのみを利用する。
- 参考スコア(独自算出の注目度): 20.846232536796578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, self-supervised Masked Autoencoders (MAE) have attracted
unprecedented attention for their impressive representation learning ability.
However, the pretext task, Masked Image Modeling (MIM), reconstructs the
missing local patches, lacking the global understanding of the image. This
paper extends MAE to a fully supervised setting by adding a supervised
classification branch, thereby enabling MAE to learn global features from
golden labels effectively. The proposed Supervised MAE (SupMAE) only exploits a
visible subset of image patches for classification, unlike the standard
supervised pre-training where all image patches are used. Through experiments,
we demonstrate that SupMAE is not only more training efficient but it also
learns more robust and transferable features. Specifically, SupMAE achieves
comparable performance with MAE using only 30% of compute when evaluated on
ImageNet with the ViT-B/16 model. SupMAE's robustness on ImageNet variants and
transfer learning performance outperforms MAE and standard supervised
pre-training counterparts. Codes are available at
https://github.com/enyac-group/supmae.
- Abstract(参考訳): 近年、自己教師付きマスク付きオートエンコーダ(mae)は、その印象的な表現学習能力によって、前例のない注目を集めている。
しかし、Masked Image Modeling (MIM)というプレテキストタスクは、画像のグローバルな理解を欠いた、欠落するローカルパッチを再構築する。
そこで本論文では,MAEを教師付き分類分岐を追加することにより,ゴールデンレーベルからグローバルな特徴を効果的に学習できるようにする。
提案する教師付きmae (supmae) は,すべての画像パッチが使用される標準教師付き事前トレーニングとは異なり,画像パッチの可視部分のみを分類に利用する。
実験により、SupMAEは学習効率が向上するだけでなく、より堅牢で伝達可能な特徴も学習できることを示した。
具体的には、SupMAEは、ViT-B/16モデルでImageNet上で評価した場合、計算の30%しか使用せず、MAEと同等のパフォーマンスを達成する。
SupMAEのImageNet変種に対する堅牢性と転送学習性能は、MAEおよび標準教師付き事前学習性能より優れている。
コードはhttps://github.com/enyac-group/supmaeで入手できる。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Masked Autoencoders are Efficient Class Incremental Learners [64.90846899051164]
クラスインクリメンタルラーニング(CIL)は,過去の知識の破滅的な忘れを回避しつつ,新しいクラスを逐次学習することを目的としている。
本稿では,CIL の学習に Masked Autoencoders (MAEs) を用いることを提案する。
論文 参考訳(メタデータ) (2023-08-24T02:49:30Z) - Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget [10.290956481715387]
Masked Autoencoder Contrastive Tuning (MAE-CT)は、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングするためのシーケンシャルなアプローチである。
MaE-CTは手作りの強化に頼らず、最小限の拡張(クロップとフリップ)のみを使用しながら、しばしば最高のパフォーマンスを達成する。
MaE-CTは、リニアプローブ、k-NN、ローショット分類の精度、および教師なしクラスタリングの精度において、ImageNetで訓練された以前の自己教師手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-20T17:51:09Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Exploring the Coordination of Frequency and Attention in Masked Image Modeling [28.418445136155512]
Masked Image Modeling (MIM) はコンピュータビジョンにおける自己教師型学習を支配している。
本稿では,周波数・注意駆動型マスキング・スローング戦略 (FAMT) を提案する。
FAMTはプラグイン・アンド・プレイモジュールとしてシームレスに統合することができ、以前の作業を超えている。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision
Transformers with Locality [28.245387355693545]
Masked AutoEncoder (MAE)は、エレガントな非対称エンコーダデコーダ設計により、視覚的自己超越領域のトレンドを導いた。
本研究では,局所性のあるピラミッドベースのViTのMAE事前学習を実現するために,一様マスキング(UM)を提案する。
論文 参考訳(メタデータ) (2022-05-20T10:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。