論文の概要: Exploring Pixel-level Self-supervision for Weakly Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2112.05351v1
- Date: Fri, 10 Dec 2021 06:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:50:06.914354
- Title: Exploring Pixel-level Self-supervision for Weakly Supervised Semantic
Segmentation
- Title(参考訳): 弱教師付き意味セグメンテーションのためのピクセルレベル自己スーパービジョンの検討
- Authors: Sung-Hoon Yoon, Hyeokjun Kweon, Jaeseok Jeong, Hyeonseong Kim,
Shinjeong Kim, Kuk-Jin Yoon
- Abstract要約: 画像レベルの監督から画素レベルの自己監督を導出する新しい枠組みを提案する。
提案するRegional Contrastive Module(RCM)とMulti-scale Attentive Module(MAM)の助けを借りて,MainNetはSupportNetの自己監督によって訓練される。
提案手法は,PASCAL 2012データセット上での列車および検証セットにおける最先端性能を示す。
- 参考スコア(独自算出の注目度): 22.607254782074325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing studies in weakly supervised semantic segmentation (WSSS) have
utilized class activation maps (CAMs) to localize the class objects. However,
since a classification loss is insufficient for providing precise object
regions, CAMs tend to be biased towards discriminative patterns (i.e.,
sparseness) and do not provide precise object boundary information (i.e.,
impreciseness). To resolve these limitations, we propose a novel framework
(composed of MainNet and SupportNet.) that derives pixel-level self-supervision
from given image-level supervision. In our framework, with the help of the
proposed Regional Contrastive Module (RCM) and Multi-scale Attentive Module
(MAM), MainNet is trained by self-supervision from the SupportNet. The RCM
extracts two forms of self-supervision from SupportNet: (1) class region masks
generated from the CAMs and (2) class-wise prototypes obtained from the
features according to the class region masks. Then, every pixel-wise feature of
the MainNet is trained by the prototype in a contrastive manner, sharpening the
resulting CAMs. The MAM utilizes CAMs inferred at multiple scales from the
SupportNet as self-supervision to guide the MainNet. Based on the dissimilarity
between the multi-scale CAMs from MainNet and SupportNet, CAMs from the MainNet
are trained to expand to the less-discriminative regions. The proposed method
shows state-of-the-art WSSS performance both on the train and validation sets
on the PASCAL VOC 2012 dataset. For reproducibility, code will be available
publicly soon.
- Abstract(参考訳): weakly supervised semantic segmentation (wsss) の既存の研究はクラスアクティベーションマップ (cams) を利用してクラスオブジェクトをローカライズしている。
しかし、正確な対象領域を提供するには分類損失が不十分であるため、CAMは識別パターン(スパースネス)に偏りがあり、正確な対象境界情報(即ち不正確さ)を提供しない傾向にある。
これらの制約を解決するために,画像レベルの監視から画素レベルの自己監督を導出する新しいフレームワーク(MainNetとSupportNetで構成された)を提案する。
提案するRegional Contrastive Module(RCM)とMulti-scale Attentive Module(MAM)の助けを借りて,MainNetはSupportNetの自己監督によって訓練される。
rcmはサポートネットから(1)camsから生成されたクラス領域マスクと(2)クラス領域マスクに従って特徴から得られたクラス単位でのプロトタイプの2つの形態の自己スーパービジョンを抽出する。
そして、MainNetのピクセル単位でのすべての機能は、プロトタイプによって対照的に訓練され、その結果のCAMを鋭くします。
MAMは、SupportNetから複数のスケールで推論されたCAMを、MainNetを導くためのセルフスーパービジョンとして利用する。
MainNetとSupportNetのマルチスケールCAMの相違に基づき、MainNetのCAMは差別の少ない領域に拡張するように訓練されている。
提案手法は,PASCAL VOC 2012データセット上での列車および検証セットにおける最先端のWSSS性能を示す。
再現性のために、コードはまもなく公開されます。
関連論文リスト
- COMNet: Co-Occurrent Matching for Weakly Supervised Semantic
Segmentation [13.244183864948848]
我々は,CAMの品質を向上し,オブジェクトの全体に対して注意を払うためにネットワークを強制する,新しいコオカレントマッチングネットワーク(COMNet)を提案する。
具体的には、共通クラスを含むペア画像のマッチングを行い、対応する領域を強化し、単一の画像上にマッチングを構築し、対象領域を横断する意味的特徴を伝達する。
The experiment on the Pascal VOC 2012 and MS-COCO datasets shows our network can effective boost the performance of the baseline model and a new-of-the-art performance。
論文 参考訳(メタデータ) (2023-09-29T03:55:24Z) - Multi-spectral Class Center Network for Face Manipulation Detection and Localization [52.569170436393165]
顔の操作検出と局所化のための新しいマルチスペクトル・クラス・センター・ネットワーク(MSCCNet)を提案する。
周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。
多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z) - Exploit CAM by itself: Complementary Learning System for Weakly
Supervised Semantic Segmentation [59.24824050194334]
本稿では,CLS(Complementary Learning System)というエージェント学習における興味深い作業機構について述べる。
このシンプルだが効果的な学習パターンを動機として,汎用学習機構(GSLM)を提案する。
汎用学習モジュール(GLM)と特定学習モジュール(SLM)を開発するGSLM
論文 参考訳(メタデータ) (2023-03-04T16:16:47Z) - CRCNet: Few-shot Segmentation with Cross-Reference and Region-Global
Conditional Networks [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
複数ショットセグメンテーションのためのクロスリファレンス・ローカル・グローバル・ネットワーク(CRCNet)を提案する。
我々のネットワークは、相互参照機構により、2つの画像に共起する物体をよりよく見つけることができる。
論文 参考訳(メタデータ) (2022-08-23T06:46:18Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。