論文の概要: SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2206.10207v1
- Date: Tue, 21 Jun 2022 09:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 03:15:15.033231
- Title: SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders
- Title(参考訳): semmae: 自動エンコーダ学習のための意味的誘導マスク
- Authors: Gang Li, Heliang Zheng, Daqing Liu, Bing Su, Changwen Zheng
- Abstract要約: Masked Autoencoding (MAE) は視覚と言語の違いである。
NLPの言葉とは異なり、画像の意味的な分解の欠如は、依然として視覚と言語の間にMAEを異なるものにしている。
意味情報をMAEの学習プロセスに統合するセマンティックガイド型マスキング戦略を提案する。
- 参考スコア(独自算出の注目度): 24.73294590182861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, significant progress has been made in masked image modeling to
catch up to masked language modeling. However, unlike words in NLP, the lack of
semantic decomposition of images still makes masked autoencoding (MAE)
different between vision and language. In this paper, we explore a potential
visual analogue of words, i.e., semantic parts, and we integrate semantic
information into the training process of MAE by proposing a Semantic-Guided
Masking strategy. Compared to widely adopted random masking, our masking
strategy can gradually guide the network to learn various information, i.e.,
from intra-part patterns to inter-part relations. In particular, we achieve
this in two steps. 1) Semantic part learning: we design a self-supervised part
learning method to obtain semantic parts by leveraging and refining the
multi-head attention of a ViT-based encoder. 2) Semantic-guided MAE (SemMAE)
training: we design a masking strategy that varies from masking a portion of
patches in each part to masking a portion of (whole) parts in an image.
Extensive experiments on various vision tasks show that SemMAE can learn better
image representation by integrating semantic information. In particular, SemMAE
achieves 84.5% fine-tuning accuracy on ImageNet-1k, which outperforms the
vanilla MAE by 1.4%. In the semantic segmentation and fine-grained recognition
tasks, SemMAE also brings significant improvements and yields the
state-of-the-art performance.
- Abstract(参考訳): 近年,マスク付き画像モデリングにおいて,マスク付き言語モデリングに追いつくために大きな進歩を遂げている。
しかし、nlpの単語とは異なり、画像の意味分解の欠如は、視覚と言語の間でマスクの自動エンコーディング(mae)が異なる。
本稿では,意味的部分という単語の潜在的な視覚的類似を探索し,セマンティック・ガイドによるマスキング戦略を提案することにより,意味情報をMAEのトレーニングプロセスに統合する。
広く採用されているランダムマスキングと比較して,マスキング戦略は徐々にネットワークを誘導し,部内パターンから部内関係まで様々な情報を学ぶことができる。
特に、これを2つのステップで達成します。
1) 意味的部分学習: ViT ベースのエンコーダの多面的注意を生かして意味的部分を得る自己指導的部分学習法を設計する。
2)Semantic-Guided MAE (SemMAE) トレーニングでは,各部分のパッチ部分のマスキングから,画像中の(全体)部分のマスキングまで,さまざまなマスキング戦略を設計する。
様々な視覚課題に関する広範囲な実験により、セムマエは意味情報を統合することでより良い画像表現を学べることを示した。
特に、SemMAEはImageNet-1kで84.5%の微調整精度を達成し、バニラMAEを1.4%上回っている。
セマンティックセグメンテーションときめ細かい認識タスクでは、SemMAEは大幅に改善され、最先端のパフォーマンスをもたらす。
関連論文リスト
- Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文 参考訳(メタデータ) (2024-11-13T16:42:07Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Learning Hierarchical Image Segmentation For Recognition and By Recognition [39.712584686731574]
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。
我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。
特に,このモデル(ラベルなし1Mイメージネット画像でトレーニング)は,PartImageNetオブジェクトセグメンテーションのmIoUにおいて,SAM(11Mイメージマスクでトレーニング)を絶対8%上回っている。
論文 参考訳(メタデータ) (2022-10-01T16:31:44Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Masked Vision and Language Modeling for Multi-modal Representation
Learning [62.15254888833132]
視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-03T15:11:01Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。