論文の概要: What to Hide from Your Students: Attention-Guided Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2203.12719v1
- Date: Wed, 23 Mar 2022 20:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 01:31:36.004762
- Title: What to Hide from Your Students: Attention-Guided Masked Image Modeling
- Title(参考訳): 生徒の隠れ方:注意を引いたマスク付き画像モデリング
- Authors: Ioannis Kakogeorgiou, Spyros Gidaris, Bill Psomas, Yannis Avrithis,
Andrei Bursuc, Konstantinos Karantzalos, Nikos Komodakis
- Abstract要約: 画像トークンマスキングは、テキストのトークンマスキングと根本的に異なる。
注意誘導マスキング(AttMask)と呼ばれる新しいマスキング戦略を導入する。
- 参考スコア(独自算出の注目度): 32.402567373491834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers and masked language modeling are quickly being adopted and
explored in computer vision as vision transformers and masked image modeling
(MIM). In this work, we argue that image token masking is fundamentally
different from token masking in text, due to the amount and correlation of
tokens in an image. In particular, to generate a challenging pretext task for
MIM, we advocate a shift from random masking to informed masking. We develop
and exhibit this idea in the context of distillation-based MIM, where a teacher
transformer encoder generates an attention map, which we use to guide masking
for the student encoder. We thus introduce a novel masking strategy, called
attention-guided masking (AttMask), and we demonstrate its effectiveness over
random masking for dense distillation-based MIM as well as plain
distillation-based self-supervised learning on classification tokens. We
confirm that AttMask accelerates the learning process and improves the
performance on a variety of downstream tasks.
- Abstract(参考訳): トランスフォーマーとマスク言語モデリングは、コンピュータビジョンにおいて視覚トランスフォーマーとマスク画像モデリング(mim)として急速に採用され、検討されている。
本研究では,画像中のトークンの量と相関関係から,画像のトークンマスキングとテキストのトークンマスキングとは根本的に異なることを論じる。
特に,mimの難解なプリテキストタスクを生成するためには,ランダムマスキングからインフォームドマスキングへの移行を推奨する。
そこでは,教師トランスフォーマーエンコーダが注目マップを生成し,学生エンコーダのマスキングをガイドする。
そこで我々は注意誘導型マスキング (attmask) と呼ばれる新しいマスキング戦略を導入し, 密閉型mimに対するランダムマスキングと, 分別トークンを用いた単純蒸留型自己教師付き学習の有効性を示す。
AttMaskが学習プロセスを加速し、様々な下流タスクのパフォーマンスを向上させることを確認した。
関連論文リスト
- CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Masked Distillation with Receptive Tokens [44.99434415373963]
特徴写像からの蒸留は、密集した予測タスクにかなり効果的である。
特徴マップ内の興味のピクセルをローカライズするために,受容トークンと呼ばれる学習可能な埋め込みを導入する。
MasKD と呼ばれる手法はシンプルで実用的であり,アプリケーション内でのタスクの事前処理は不要である。
論文 参考訳(メタデータ) (2022-05-29T07:32:00Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。