論文の概要: Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2211.10931v1
- Date: Sun, 20 Nov 2022 10:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:26:03.803819
- Title: Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションにおける注意に基づくクラス活性化拡散
- Authors: Jianqiang Huang, Jian Wang, Qianru Sun and Hanwang Zhang
- Abstract要約: クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
- 参考スコア(独自算出の注目度): 98.306533433627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting class activation maps (CAM) is a key step for weakly-supervised
semantic segmentation (WSSS). The CAM of convolution neural networks fails to
capture long-range feature dependency on the image and result in the coverage
on only foreground object parts, i.e., a lot of false negatives. An intuitive
solution is ``coupling'' the CAM with the long-range attention matrix of visual
transformers (ViT) We find that the direct ``coupling'', e.g., pixel-wise
multiplication of attention and activation, achieves a more global coverage (on
the foreground), but unfortunately goes with a great increase of false
positives, i.e., background pixels are mistakenly included. This paper aims to
tackle this issue. It proposes a new method to couple CAM and Attention matrix
in a probabilistic Diffusion way, and dub it AD-CAM. Intuitively, it integrates
ViT attention and CAM activation in a conservative and convincing way.
Conservative is achieved by refining the attention between a pair of pixels
based on their respective attentions to common neighbors, where the intuition
is two pixels having very different neighborhoods are rarely dependent, i.e.,
their attention should be reduced. Convincing is achieved by diffusing a
pixel's activation to its neighbors (on the CAM) in proportion to the
corresponding attentions (on the AM). In experiments, our results on two
challenging WSSS benchmarks PASCAL VOC and MS~COCO show that AD-CAM as pseudo
labels can yield stronger WSSS models than the state-of-the-art variants of
CAM.
- Abstract(参考訳): クラスアクティベーションマップ(CAM)の抽出は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである。
畳み込みニューラルネットワークのcamは、画像に対する長距離特徴依存性を捉えることができず、フォアグラウンドオブジェクト部分、すなわち多くの偽陰性のみをカバーすることになる。
直感的な解は、視覚変換器(ViT)の長時間の注意行列を持つCAMの ``coupling' である。 直接の ``coupling''、例えば、注意とアクティベーションのピクセルワイド乗算は、よりグローバルなカバレッジ(前景)を達成するが、残念なことに偽陽性、すなわち背景画素が誤って含まれていることが分かる。
本稿ではこの問題に取り組むことを目的とする。
確率拡散方式でCAMとアテンション行列を結合し、AD-CAMをダブする新しい手法を提案する。
直感的には、ViTの注意とCAMの活性化を保守的で説得力のある方法で統合する。
保守性は、2つのピクセル間の注意を共通の隣人に対するそれぞれの注意に基づいて精確にすることで達成される。
収束は、ピクセルの活性化を隣人(CAM)に、対応する注意(AM)に比例して拡散させることによって達成される。
実験の結果、PASCAL VOC と MS~COCO の2つの挑戦的な WSSS ベンチマークの結果、AD-CAM を擬似ラベルとすることで、CAM の最先端モデルよりも強力な WSSS モデルが得られることが示された。
関連論文リスト
- All-pairs Consistency Learning for Weakly Supervised Semantic
Segmentation [42.66269050864235]
Weakly supervised semantic segmentation (WSSS) のためのオブジェクトのローカライズに適したトランスフォーマーベース正規化を提案する。
我々は、ペアワイズ親和性を自然に埋め込む自己注意機構として、視覚変換器を採用する。
本手法は, PASCAL VOC列車のクラスローカライゼーションマップ(67.3% mIoU)を顕著に向上させる。
論文 参考訳(メタデータ) (2023-08-08T15:14:23Z) - Importance Sampling CAMs for Weakly-Supervised Segmentation [16.86352815414646]
クラスアクティベーションマップ(CAM)は、クラスアクティベーションマップ(CAM)を用いて、画像内のオブジェクトのローカライズとセグメント化に使用できる。
本研究では,CAM学習の改善に2つの貢献によって両問題にアプローチする。
PASCAL VOC 2012ベンチマークデータセットを用いて,これらの修正によって輪郭精度が著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-23T14:54:29Z) - Self-supervised Image-specific Prototype Exploration for Weakly
Supervised Semantic Segmentation [72.33139350241044]
画像レベルのラベルをベースとしたWSSS(Weakly Supervised Semantic COCO)は,アノテーションコストの低さから注目されている。
本稿では,画像特異的なプロトタイプ探索 (IPE) と汎用一貫性 (GSC) の喪失からなる画像固有プロトタイプ探索 (SIPE) を提案する。
SIPEは,画像レベルラベルのみを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-06T09:01:03Z) - Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation [88.55040177178442]
クラスアクティベーションマップ(CAM)は、セマンティックセグメンテーションのための疑似マスクを生成する最も標準的なステップである。
しかし、不満足な擬似マスクのくちばしは、CAMで広く使われているバイナリクロスエントロピー損失(BCE)である。
ソフトマックスクロスエントロピー損失(SCE)を用いて収束CAMをBCEで再活性化する。
PASCAL VOC と MSCOCO の評価は、ReCAM が高品質なマスクを生成するだけでなく、オーバーヘッドの少ない任意の CAM 版でプラグイン・アンド・プレイをサポートすることを示している。
論文 参考訳(メタデータ) (2022-03-02T09:14:58Z) - PCAM: Product of Cross-Attention Matrices for Rigid Registration of
Point Clouds [79.99653758293277]
PCAMは、キー要素がクロスアテンション行列のポイントワイズ積であるニューラルネットワークである。
そこで本研究では,PCAMがステップ(a)とステップ(b)をディープネットを介して共同で解決する手法によって,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-04T09:23:27Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - Puzzle-CAM: Improved localization via matching partial and full features [0.5482532589225552]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)を導入し、セマンティクス性能のギャップを画素レベルの監視から画像レベルの監視へと狭める。
ほとんどの高度なアプローチは、セグメンテーションネットワークをトレーニングするために擬似ラベルを生成するクラスアクティベーションマップ(CAM)に基づいている。
本稿では,個々のパッチと画像全体の違いを最小限に抑えるプロセスであるPuzzle-CAMを提案する。
実験では、Puzzle-CAMはPASCAL VOC 2012データセットの監視のために同じラベルを使用した従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-01-27T08:19:38Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。