論文の概要: Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization
- arxiv url: http://arxiv.org/abs/2402.18128v1
- Date: Wed, 28 Feb 2024 07:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:54:47.561733
- Title: Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization
- Title(参考訳): マルチレベル最適化を用いたマスクオートエンコーダにおけるダウンストリームタスク指導型マスキング学習
- Authors: Han Guo, Ramtin Hosseini, Ruiyi Zhang, Sai Ashish Somayajula, Ranak
Roy Chowdhury, Rajesh K. Gupta, Pengtao Xie
- Abstract要約: Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
- 参考スコア(独自算出の注目度): 42.82742477950748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoder (MAE) is a notable method for self-supervised pretraining
in visual representation learning. It operates by randomly masking image
patches and reconstructing these masked patches using the unmasked ones. A key
limitation of MAE lies in its disregard for the varying informativeness of
different patches, as it uniformly selects patches to mask. To overcome this,
some approaches propose masking based on patch informativeness. However, these
methods often do not consider the specific requirements of downstream tasks,
potentially leading to suboptimal representations for these tasks. In response,
we introduce the Multi-level Optimized Mask Autoencoder (MLO-MAE), a novel
framework that leverages end-to-end feedback from downstream tasks to learn an
optimal masking strategy during pretraining. Our experimental findings
highlight MLO-MAE's significant advancements in visual representation learning.
Compared to existing methods, it demonstrates remarkable improvements across
diverse datasets and tasks, showcasing its adaptability and efficiency. Our
code is available at: https://github.com/Alexiland/MLOMAE
- Abstract(参考訳): Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
画像パッチをランダムにマスキングし、マスキングされていないパッチを使ってこれらのマスキングパッチを再構築する。
maeの鍵となる制限は、異なるパッチのさまざまな情報性を無視し、マスクに対するパッチを均一に選択することにある。
これを解決するために、パッチ情報に基づくマスキングを提案するアプローチもある。
しかし、これらの手法はダウンストリームタスクの特定の要求を考慮せず、潜在的にこれらのタスクに最適でない表現をもたらす。
そこで我々は,下流タスクからのエンドツーエンドフィードバックを利用して,事前学習中に最適なマスキング戦略を学習する,MLO-MAE(Multi-level Optimized Mask Autoencoder)を導入する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
既存の方法と比較して、さまざまなデータセットやタスクにまたがる顕著な改善を示し、適応性と効率性を示している。
私たちのコードは、https://github.com/Alexiland/MLOMAEで利用可能です。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with
Masked Autoencoders [44.87786478095987]
Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。
本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。
AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
論文 参考訳(メタデータ) (2022-11-16T18:59:48Z) - What to Hide from Your Students: Attention-Guided Masked Image Modeling [32.402567373491834]
画像トークンマスキングは、テキストのトークンマスキングと根本的に異なる。
注意誘導マスキング(AttMask)と呼ばれる新しいマスキング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T20:52:50Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。