論文の概要: Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders
- arxiv url: http://arxiv.org/abs/2210.02077v1
- Date: Wed, 5 Oct 2022 08:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:10:49.611119
- Title: Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders
- Title(参考訳): 自己教師型マスクオートエンコーダにおける平均教師の役割を探る
- Authors: Youngwan Lee, Jeffrey Willette, Jonghee Kim, Juho Lee, Sung Ju Hwang
- Abstract要約: マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
- 参考スコア(独自算出の注目度): 64.03000385267339
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Masked image modeling (MIM) has become a popular strategy for self-supervised
learning~(SSL) of visual representations with Vision Transformers. A
representative MIM model, the masked auto-encoder (MAE), randomly masks a
subset of image patches and reconstructs the masked patches given the unmasked
patches. Concurrently, many recent works in self-supervised learning utilize
the student/teacher paradigm which provides the student with an additional
target based on the output of a teacher composed of an exponential moving
average (EMA) of previous students. Although common, relatively little is known
about the dynamics of the interaction between the student and teacher. Through
analysis on a simple linear model, we find that the teacher conditionally
removes previous gradient directions based on feature similarities which
effectively acts as a conditional momentum regularizer. From this analysis, we
present a simple SSL method, the Reconstruction-Consistent Masked Auto-Encoder
(RC-MAE) by adding an EMA teacher to MAE. We find that RC-MAE converges faster
and requires less memory usage than state-of-the-art self-distillation methods
during pre-training, which may provide a way to enhance the practicality of
prohibitively expensive self-supervised learning of Vision Transformer models.
Additionally, we show that RC-MAE achieves more robustness and better
performance compared to MAE on downstream tasks such as ImageNet-1K
classification, object detection, and instance segmentation.
- Abstract(参考訳): マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
代表的MIMモデルであるマスク付きオートエンコーダ(MAE)は、画像パッチのサブセットをランダムにマスキングし、マスクされたパッチをアンマスクしたパッチで再構築する。
同時に,前学生の指数移動平均(EMA)からなる教師の出力に基づいて,生徒に追加的な目標を与える,学生/教師パラダイムを利用した自己教師型学習の研究も数多く行われている。
普通ではあるが、生徒と教師の相互作用のダイナミクスについては比較的知られていない。
簡単な線形モデルの解析により,教師は条件運動量正規化器として効果的に機能する特徴的類似性に基づいて,事前の勾配方向を条件付きで除去する。
そこで本研究では,簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
我々はrc-maeの収束が高速で、事前訓練中の最先端の自己蒸留法よりも少ないメモリ使用量を必要とすることを見出し、視覚トランスフォーマーモデルの禁断的に高価な自己教師付き学習の実用性を高める方法を提供する。
さらに, RC-MAEは, ImageNet-1K分類, オブジェクト検出, インスタンスセグメンテーションといった下流タスクのMAEと比較して, より堅牢性と性能が向上していることを示す。
関連論文リスト
- Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MOMA:Distill from Self-Supervised Teachers [6.737710830712818]
我々は,事前学習したMoCoとMAEを自己指導的に蒸留し,両者のパラダイムから知識を抽出するMOMAを提案する。
実験では、MOMAは既存の最先端手法に匹敵する性能のコンパクトな学生モデルを提供している。
論文 参考訳(メタデータ) (2023-02-04T04:23:52Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。