論文の概要: Adversarial Masking for Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2201.13100v1
- Date: Mon, 31 Jan 2022 10:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 23:11:29.412491
- Title: Adversarial Masking for Self-Supervised Learning
- Title(参考訳): 自己指導型学習のための対人マスキング
- Authors: Yuge Shi and N. Siddharth and Philip H.S. Torr and Adam R. Kosiorek
- Abstract要約: 自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
- 参考スコア(独自算出の注目度): 81.25999058340997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ADIOS, a masked image model (MIM) framework for self-supervised
learning, which simultaneously learns a masking function and an image encoder
using an adversarial objective. The image encoder is trained to minimise the
distance between representations of the original and that of a masked image.
The masking function, conversely, aims at maximising this distance. ADIOS
consistently improves on state-of-the-art self-supervised learning (SSL)
methods on a variety of tasks and datasets -- including classification on
ImageNet100 and STL10, transfer learning on CIFAR10/100, Flowers102 and
iNaturalist, as well as robustness evaluated on the backgrounds challenge (Xiao
et al., 2021) -- while generating semantically meaningful masks. Unlike modern
MIM models such as MAE, BEiT and iBOT, ADIOS does not rely on the image-patch
tokenisation construction of Vision Transformers, and can be implemented with
convolutional backbones. We further demonstrate that the masks learned by ADIOS
are more effective in improving representation learning of SSL methods than
masking schemes used in popular MIM models.
- Abstract(参考訳): 本稿では,マスク機能と画像エンコーダを同時に学習する自己教師付き学習のためのマスク画像モデル(mim)フレームワークであるadiosを提案する。
画像エンコーダは、元の表現とマスクされた画像との距離を最小化するように訓練される。
マスキング関数は逆に、この距離を最大化することを目的としている。
ADIOSは、ImageNet100とSTL10の分類、CIFAR10/100、Flowers102とiNaturalistでのトランスファーラーニング、背景課題(Xiao et al., 2021)に基づいて評価された堅牢性など、さまざまなタスクとデータセットに関する最先端の自己教師付き学習(SSL)メソッドを一貫して改善している。
MAE、BEiT、iBOTのような現代のMIMモデルとは異なり、ADIOSはビジョントランスフォーマーのイメージパッチトークン化の構成に依存しておらず、畳み込みバックボーンで実装することができる。
さらに、ADIOSが学習したマスクは、一般的なMIMモデルで使用されるマスク方式よりもSSLメソッドの表現学習を改善するのに効果的であることを示す。
関連論文リスト
- Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文 参考訳(メタデータ) (2024-11-13T16:42:07Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Exploring the Coordination of Frequency and Attention in Masked Image Modeling [28.418445136155512]
Masked Image Modeling (MIM) はコンピュータビジョンにおける自己教師型学習を支配している。
本稿では,周波数・注意駆動型マスキング・スローング戦略 (FAMT) を提案する。
FAMTはプラグイン・アンド・プレイモジュールとしてシームレスに統合することができ、以前の作業を超えている。
論文 参考訳(メタデータ) (2022-11-28T14:38:19Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Masked Vision and Language Modeling for Multi-modal Representation
Learning [62.15254888833132]
視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-03T15:11:01Z) - SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders [24.73294590182861]
Masked Autoencoding (MAE) は視覚と言語の違いである。
NLPの言葉とは異なり、画像の意味的な分解の欠如は、依然として視覚と言語の間にMAEを異なるものにしている。
意味情報をMAEの学習プロセスに統合するセマンティックガイド型マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-21T09:08:32Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。