Fugu-MT 論文翻訳(概要): Exploring The Role of Mean Teachers in Self-supervised Masked Auto-Encoders

論文の概要: Exploring The Role of Mean Teachers in Self-supervised Masked Auto-Encoders

arxiv url: http://arxiv.org/abs/2210.02077v1
Date: Wed, 5 Oct 2022 08:08:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 14:10:49.611119
Title: Exploring The Role of Mean Teachers in Self-supervised Masked Auto-Encoders
Title（参考訳）: 自己教師型マスクオートエンコーダにおける平均教師の役割を探る
Authors: Youngwan Lee, Jeffrey Willette, Jonghee Kim, Juho Lee, Sung Ju Hwang
Abstract要約: マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。 RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
参考スコア（独自算出の注目度）: 64.03000385267339
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Masked image modeling (MIM) has become a popular strategy for self-supervised learning~(SSL) of visual representations with Vision Transformers. A representative MIM model, the masked auto-encoder (MAE), randomly masks a subset of image patches and reconstructs the masked patches given the unmasked patches. Concurrently, many recent works in self-supervised learning utilize the student/teacher paradigm which provides the student with an additional target based on the output of a teacher composed of an exponential moving average (EMA) of previous students. Although common, relatively little is known about the dynamics of the interaction between the student and teacher. Through analysis on a simple linear model, we find that the teacher conditionally removes previous gradient directions based on feature similarities which effectively acts as a conditional momentum regularizer. From this analysis, we present a simple SSL method, the Reconstruction-Consistent Masked Auto-Encoder (RC-MAE) by adding an EMA teacher to MAE. We find that RC-MAE converges faster and requires less memory usage than state-of-the-art self-distillation methods during pre-training, which may provide a way to enhance the practicality of prohibitively expensive self-supervised learning of Vision Transformer models. Additionally, we show that RC-MAE achieves more robustness and better performance compared to MAE on downstream tasks such as ImageNet-1K classification, object detection, and instance segmentation.
Abstract（参考訳）: マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。代表的MIMモデルであるマスク付きオートエンコーダ(MAE)は、画像パッチのサブセットをランダムにマスキングし、マスクされたパッチをアンマスクしたパッチで再構築する。同時に,前学生の指数移動平均(EMA)からなる教師の出力に基づいて,生徒に追加的な目標を与える,学生/教師パラダイムを利用した自己教師型学習の研究も数多く行われている。普通ではあるが、生徒と教師の相互作用のダイナミクスについては比較的知られていない。簡単な線形モデルの解析により,教師は条件運動量正規化器として効果的に機能する特徴的類似性に基づいて,事前の勾配方向を条件付きで除去する。そこで本研究では,簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。我々はrc-maeの収束が高速で、事前訓練中の最先端の自己蒸留法よりも少ないメモリ使用量を必要とすることを見出し、視覚トランスフォーマーモデルの禁断的に高価な自己教師付き学習の実用性を高める方法を提供する。さらに, RC-MAEは, ImageNet-1K分類, オブジェクト検出, インスタンスセグメンテーションといった下流タスクのMAEと比較して, より堅牢性と性能が向上していることを示す。

関連論文リスト

The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning [16.05598829701769]
CMT-MAEは、教師モデルと学生モデルの両方の注意を通した線形アグリゲーションを通じて、単純な協調マスキング機構を活用する。 ImageNet-1Kで事前学習したフレームワークは、最先端の線形探索と微調整性能を実現する。
論文参考訳（メタデータ） (2024-12-23T13:37:26Z)
Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文参考訳（メタデータ） (2023-10-03T12:08:15Z)
CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文参考訳（メタデータ） (2023-08-31T09:13:30Z)
Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文参考訳（メタデータ） (2023-03-12T05:28:55Z)
MOMA:Distill from Self-Supervised Teachers [6.737710830712818]
我々は,事前学習したMoCoとMAEを自己指導的に蒸留し,両者のパラダイムから知識を抽出するMOMAを提案する。実験では、MOMAは既存の最先端手法に匹敵する性能のコンパクトな学生モデルを提供している。
論文参考訳（メタデータ） (2023-02-04T04:23:52Z)
Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文参考訳（メタデータ） (2022-11-16T12:48:52Z)
Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文参考訳（メタデータ） (2022-09-08T16:55:19Z)
Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文参考訳（メタデータ） (2022-01-31T10:23:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。