論文の概要: Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2411.08756v2
- Date: Thu, 14 Nov 2024 08:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 11:44:47.836046
- Title: Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation
- Title(参考訳): 半教師付きセマンティックセグメンテーションを補助するマスケ画像モデリング
- Authors: Yangyang Li, Xuanting Hao, Ronghua Shang, Licheng Jiao,
- Abstract要約: クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
- 参考スコア(独自算出の注目度): 38.55611683982936
- License:
- Abstract: In view of the fact that semi- and self-supervised learning share a fundamental principle, effectively modeling knowledge from unlabeled data, various semi-supervised semantic segmentation methods have integrated representative self-supervised learning paradigms for further regularization. However, the potential of the state-of-the-art generative self-supervised paradigm, masked image modeling, has been scarcely studied. This paradigm learns the knowledge through establishing connections between the masked and visible parts of masked image, during the pixel reconstruction process. By inheriting and extending this insight, we successfully leverage masked image modeling to boost semi-supervised semantic segmentation. Specifically, we introduce a novel class-wise masked image modeling that independently reconstructs different image regions according to their respective classes. In this way, the mask-induced connections are established within each class, mitigating the semantic confusion that arises from plainly reconstructing images in basic masked image modeling. To strengthen these intra-class connections, we further develop a feature aggregation strategy that minimizes the distances between features corresponding to the masked and visible parts within the same class. Additionally, in semantic space, we explore the application of masked image modeling to enhance regularization. Extensive experiments conducted on well-known benchmarks demonstrate that our approach achieves state-of-the-art performance. The code will be available at https://github.com/haoxt/S4MIM.
- Abstract(参考訳): 半教師付き学習と自己教師型学習が、ラベルのないデータから知識を効果的にモデリングする基本原則を共有しているという事実を踏まえ、様々な半教師付きセマンティックセグメンテーション手法は、さらなる正規化のために代表的自己教師型学習パラダイムを統合している。
しかし、最先端の自己管理パラダイムであるマスク画像モデリングの可能性はほとんど研究されていない。
このパラダイムは、画素再構成過程において、マスクされた画像の可視部分とマスクされた画像の接続を確立することによって知識を学習する。
この知見を継承し,拡張することにより,半教師付きセマンティックセマンティックセグメンテーションを促進するためにマスク付き画像モデリングをうまく活用する。
具体的には,各クラスごとに異なる画像領域を独立に再構成する,新しいクラスワイド・マスク画像モデリングを提案する。
このように、各クラス内でマスクによる接続が確立され、基本的なマスク画像モデリングにおいて、画像の平易な再構成から生じる意味的混乱が軽減される。
これらのクラス内接続を強化するため,同クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略をさらに発展させる。
さらに、セマンティック空間において、正規化を強化するためのマスク付き画像モデリングの適用について検討する。
良く知られたベンチマークで行った大規模な実験は、我々のアプローチが最先端のパフォーマンスを達成することを実証している。
コードはhttps://github.com/haoxt/S4MIMで入手できる。
関連論文リスト
- OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders [24.73294590182861]
Masked Autoencoding (MAE) は視覚と言語の違いである。
NLPの言葉とは異なり、画像の意味的な分解の欠如は、依然として視覚と言語の間にMAEを異なるものにしている。
意味情報をMAEの学習プロセスに統合するセマンティックガイド型マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-21T09:08:32Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。