論文の概要: Good helper is around you: Attention-driven Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2211.15362v2
- Date: Thu, 1 Dec 2022 12:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:10:30.447126
- Title: Good helper is around you: Attention-driven Masked Image Modeling
- Title(参考訳): 良いヘルパーはあなたの周りにある:注意駆動マスク画像モデリング
- Authors: Zhengqi Liu, Jie Gui, Hao Luo
- Abstract要約: マスク付き画像モデリング(MIM)は自己教師あり学習において大きな可能性を示している。
我々は,textbfAttention-driven Masking and Throwing Strategy (AMT)を提案する。
AMTは、CIFAR-10/100、STL-10、Tiny ImageNet、ImageNet-1KでMAEの線形探索精度を$2.9%改善した。
- 参考スコア(独自算出の注目度): 12.961634455083775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been witnessed that masked image modeling (MIM) has shown a huge
potential in self-supervised learning in the past year. Benefiting from the
universal backbone vision transformer, MIM learns self-supervised visual
representations through masking a part of patches of the image while attempting
to recover the missing pixels. Most previous works mask patches of the image
randomly, which underutilizes the semantic information that is beneficial to
visual representation learning. On the other hand, due to the large size of the
backbone, most previous works have to spend much time on pre-training. In this
paper, we propose \textbf{Attention-driven Masking and Throwing Strategy}
(AMT), which could solve both problems above. We first leverage the
self-attention mechanism to obtain the semantic information of the image during
the training process automatically without using any supervised methods.
Masking strategy can be guided by that information to mask areas selectively,
which is helpful for representation learning. Moreover, a redundant patch
throwing strategy is proposed, which makes learning more efficient. As a
plug-and-play module for masked image modeling, AMT improves the linear probing
accuracy of MAE by $2.9\% \sim 5.9\%$ on CIFAR-10/100, STL-10, Tiny ImageNet,
and ImageNet-1K, and obtains an improved performance with respect to
fine-tuning accuracy of MAE and SimMIM. Moreover, this design also achieves
superior performance on downstream detection and segmentation tasks. Code is
available at https://github.com/guijiejie/AMT.
- Abstract(参考訳): マスク付き画像モデリング(MIM)は,過去1年間,自己教師型学習において大きな可能性を秘めてきた。
MIMは、ユニバーサルバックボーン・ビジョン・トランスフォーマーから恩恵を受け、画像のパッチの一部を隠蔽し、欠落したピクセルを回復しようとすることで、自己監督された視覚表現を学習する。
これまでのほとんどの作業では、画像のパッチをランダムにマスクし、視覚表現学習に有用な意味情報を弱めている。
一方、バックボーンの大きさが大きいため、以前のほとんどの作品は事前トレーニングに多くの時間を費やしなければならない。
本稿では,上記の2つの問題を解くことができるtextbf{Attention-driven Masking and Throwing Strategy} (AMT)を提案する。
まず,教師付き手法を使わずに,学習過程中に画像の意味情報を自動取得するために自己照査機構を利用する。
マスキング戦略は、その情報を選択的にマスキング領域に誘導することができ、表現学習に役立つ。
さらに,冗長なパッチスロー戦略を提案し,学習をより効率的にする。
マスク画像モデリング用プラグアンドプレイモジュールとして、AMTは、CIFAR-10/100, STL-10, Tiny ImageNet, ImageNet-1K上のMAEの線形探索精度を$2.9\% \sim 5.9\%で改善し、MAEとSimMIMの微調整精度に関して改善された性能を得る。
さらに、この設計は下流検出およびセグメント化タスクにおいて優れた性能を達成する。
コードはhttps://github.com/guijiejie/AMT.comで入手できる。
関連論文リスト
- Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。