論文の概要: Stare at What You See: Masked Image Modeling without Reconstruction
- arxiv url: http://arxiv.org/abs/2211.08887v1
- Date: Wed, 16 Nov 2022 12:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:40:25.210779
- Title: Stare at What You See: Masked Image Modeling without Reconstruction
- Title(参考訳): ご覧の通り: 再建のないマスク付き画像モデリング
- Authors: Hongwei Xue, Peng Gao, Hongyang Li, Yu Qiao, Hao Sun, Houqiang Li,
Jiebo Luo
- Abstract要約: Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
- 参考スコア(独自算出の注目度): 154.74533119863864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoders (MAE) have been prevailing paradigms for large-scale
vision representation pre-training. By reconstructing masked image patches from
a small portion of visible image regions, MAE forces the model to infer
semantic correlation within an image. Recently, some approaches apply
semantic-rich teacher models to extract image features as the reconstruction
target, leading to better performance. However, unlike the low-level features
such as pixel values, we argue the features extracted by powerful teacher
models already encode rich semantic correlation across regions in an intact
image.This raises one question: is reconstruction necessary in Masked Image
Modeling (MIM) with a teacher model? In this paper, we propose an efficient MIM
paradigm named MaskAlign. MaskAlign simply learns the consistency of visible
patch features extracted by the student model and intact image features
extracted by the teacher model. To further advance the performance and tackle
the problem of input inconsistency between the student and teacher model, we
propose a Dynamic Alignment (DA) module to apply learnable alignment. Our
experimental results demonstrate that masked modeling does not lose
effectiveness even without reconstruction on masked regions. Combined with
Dynamic Alignment, MaskAlign can achieve state-of-the-art performance with much
higher efficiency. Code and models will be available at
https://github.com/OpenPerceptionX/maskalign.
- Abstract(参考訳): Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
可視画像領域のごく一部からマスク画像パッチを再構成することにより、maeはモデルに画像内の意味相関を推論させる。
近年,画像特徴を復元対象として抽出するために意味豊富な教師モデルを適用した手法が提案されている。
しかし,画素値のような低レベルな特徴とは異なり,教師モデルによって抽出された特徴は,教師モデルを用いたマスク画像モデリング (mim) において必要か,という疑問を提起する。
本稿では,MaskAlignという,効率的なMIMパラダイムを提案する。
MaskAlignは、学生モデルによって抽出された可視的パッチ機能と教師モデルによって抽出された無傷の画像機能の一貫性を単に学習する。
学生モデルと教師モデルとの整合性の問題に対処するために,学習可能なアライメントを適用するための動的アライメント(DA)モジュールを提案する。
実験結果から,マスク領域を再構築してもマスクモデルの有効性は低下しないことが示された。
Dynamic Alignmentと組み合わせることで、MaskAlignは最先端のパフォーマンスをはるかに高い効率で達成できる。
コードとモデルはhttps://github.com/openperceptionx/maskalign.comで入手できる。
関連論文リスト
- Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文 参考訳(メタデータ) (2024-11-13T16:42:07Z) - Fine-tuning a Multiple Instance Learning Feature Extractor with Masked
Context Modelling and Knowledge Distillation [0.21756081703275998]
我々は,知識蒸留を用いたコンテキストモデリングを用いて特徴抽出モデルを微調整することにより,下流MIL分類を向上させることを提案する。
提案したタスクの1つのエポックは、MILシナリオで使用する場合の特徴抽出モデルの下流性能を向上させるのに十分であり、計算のごく一部を必要とする。
論文 参考訳(メタデータ) (2024-03-08T14:04:30Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。