論文の概要: CL-MAE: Curriculum-Learned Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2308.16572v2
- Date: Wed, 25 Oct 2023 11:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 19:49:14.205483
- Title: CL-MAE: Curriculum-Learned Masked Autoencoders
- Title(参考訳): CL-MAE:カリキュラム学習型マスクオートエンコーダ
- Authors: Neelu Madan, Nicolae-Catalin Ristea, Kamal Nasrollahi, Thomas B.
Moeslund, Radu Tudor Ionescu
- Abstract要約: 本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
- 参考スコア(独自算出の注目度): 49.24994655813455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling has been demonstrated as a powerful pretext task for
generating robust representations that can be effectively generalized across
multiple downstream tasks. Typically, this approach involves randomly masking
patches (tokens) in input images, with the masking strategy remaining unchanged
during training. In this paper, we propose a curriculum learning approach that
updates the masking strategy to continually increase the complexity of the
self-supervised reconstruction task. We conjecture that, by gradually
increasing the task complexity, the model can learn more sophisticated and
transferable representations. To facilitate this, we introduce a novel
learnable masking module that possesses the capability to generate masks of
different complexities, and integrate the proposed module into masked
autoencoders (MAE). Our module is jointly trained with the MAE, while adjusting
its behavior during training, transitioning from a partner to the MAE
(optimizing the same reconstruction loss) to an adversary (optimizing the
opposite loss), while passing through a neutral state. The transition between
these behaviors is smooth, being regulated by a factor that is multiplied with
the reconstruction loss of the masking module. The resulting training procedure
generates an easy-to-hard curriculum. We train our Curriculum-Learned Masked
Autoencoder (CL-MAE) on ImageNet and show that it exhibits superior
representation learning capabilities compared to MAE. The empirical results on
five downstream tasks confirm our conjecture, demonstrating that curriculum
learning can be successfully used to self-supervise masked autoencoders. We
release our code at https://github.com/ristea/cl-mae.
- Abstract(参考訳): マスク付き画像モデリングは、複数の下流タスクで効果的に一般化できる堅牢な表現を生成するための強力なプリテキストタスクとして実証されている。
通常、このアプローチは入力画像のパッチ(トークン)をランダムにマスキングするが、トレーニング中にマスク戦略は変わらない。
本稿では,マスキング戦略をアップデートし,自己監督型再構築作業の複雑さを継続的に高めるカリキュラム学習手法を提案する。
タスクの複雑さを徐々に増大させることで、モデルはより高度で伝達可能な表現を学ぶことができると推測する。
これを容易にするために,異なる複雑なマスクを生成する能力を有する新しい学習可能なマスキングモジュールを導入し,提案モジュールをマスク付きオートエンコーダ(MAE)に統合する。
我々のモジュールは、トレーニング中の動作を調整しながら、MAEと共同でトレーニングされ、パートナーからMAEへ(同じ復元損失を最適化)、敵へ(反対損失を最適化)し、中立状態を通過する。
これらの挙動間の遷移は滑らかであり、マスキングモジュールの再構成損失に乗じる因子によって制御される。
得られたトレーニング手順は、難易度の高いカリキュラムを生成する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
5つの下流タスクにおける実証的な結果から,カリキュラム学習が自己監督型オートエンコーダに有効であることを示す。
コードはhttps://github.com/ristea/cl-maeでリリースします。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。