論文の概要: Improving Masked Autoencoders by Learning Where to Mask
- arxiv url: http://arxiv.org/abs/2303.06583v1
- Date: Sun, 12 Mar 2023 05:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:05:10.407547
- Title: Improving Masked Autoencoders by Learning Where to Mask
- Title(参考訳): マスクの場所学習によるマスクオートエンコーダの改良
- Authors: Haijian Chen, Wendong Zhang, Yunbo Wang, Xiaokang Yang
- Abstract要約: マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
- 参考スコア(独自算出の注目度): 66.91502830690258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling is a promising self-supervised learning method for
visual data. It is typically built upon image patches with random masks, which
largely ignores the variation of information density between them. The question
is: Is there a better masking strategy than random sampling and how can we
learn it? We empirically study this problem and initially find that introducing
object-centric priors in mask sampling can significantly improve the learned
representations. Inspired by this observation, we present AutoMAE, a fully
differentiable framework that uses Gumbel-Softmax to interlink an
adversarially-trained mask generator and a mask-guided image modeling process.
In this way, our approach can adaptively find patches with higher information
density for different images, and further strike a balance between the
information gain obtained from image reconstruction and its practical training
difficulty. In our experiments, AutoMAE is shown to provide effective
pretraining models on standard self-supervised benchmarks and downstream tasks.
- Abstract(参考訳): マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
通常、ランダムマスクのイメージパッチ上に構築され、それらの間の情報密度の変化を無視する。
質問は、ランダムサンプリングよりもマスキング戦略が優れているか、どうやって学習できるのか、ということです。
この問題を経験的に研究し,まず,マスクサンプリングにおけるオブジェクト中心の優先順位の導入が学習表現を著しく改善できることを見出した。
この観測から着想を得たAutoMAEは、Gumbel-Softmaxを用いて、対向的に訓練されたマスクジェネレータとマスク誘導画像モデリングプロセスの相互接続を行う。
このようにして,異なる画像に対して高い情報密度を持つパッチを適応的に発見し,画像再構成から得られた情報ゲインと実際の学習困難とのバランスをさらに高めることができる。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Exploring the Coordination of Frequency and Attention in Masked Image Modeling [28.418445136155512]
Masked Image Modeling (MIM) はコンピュータビジョンにおける自己教師型学習を支配している。
本稿では,周波数・注意駆動型マスキング・スローング戦略 (FAMT) を提案する。
FAMTはプラグイン・アンド・プレイモジュールとしてシームレスに統合することができ、以前の作業を超えている。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。