論文の概要: All-pairs Consistency Learning for Weakly Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2308.04321v2
- Date: Sun, 24 Sep 2023 04:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:31:20.290125
- Title: All-pairs Consistency Learning for Weakly Supervised Semantic
Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションのための全ペア一貫性学習
- Authors: Weixuan Sun, Yanhao Zhang, Zhen Qin, Zheyuan Liu, Lin Cheng, Fanyi
Wang, Yiran Zhong, Nick Barnes
- Abstract要約: Weakly supervised semantic segmentation (WSSS) のためのオブジェクトのローカライズに適したトランスフォーマーベース正規化を提案する。
我々は、ペアワイズ親和性を自然に埋め込む自己注意機構として、視覚変換器を採用する。
本手法は, PASCAL VOC列車のクラスローカライゼーションマップ(67.3% mIoU)を顕著に向上させる。
- 参考スコア(独自算出の注目度): 42.66269050864235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a new transformer-based regularization to better
localize objects for Weakly supervised semantic segmentation (WSSS). In
image-level WSSS, Class Activation Map (CAM) is adopted to generate object
localization as pseudo segmentation labels. To address the partial activation
issue of the CAMs, consistency regularization is employed to maintain
activation intensity invariance across various image augmentations. However,
such methods ignore pair-wise relations among regions within each CAM, which
capture context and should also be invariant across image views. To this end,
we propose a new all-pairs consistency regularization (ACR). Given a pair of
augmented views, our approach regularizes the activation intensities between a
pair of augmented views, while also ensuring that the affinity across regions
within each view remains consistent. We adopt vision transformers as the
self-attention mechanism naturally embeds pair-wise affinity. This enables us
to simply regularize the distance between the attention matrices of augmented
image pairs. Additionally, we introduce a novel class-wise localization method
that leverages the gradients of the class token. Our method can be seamlessly
integrated into existing WSSS methods using transformers without modifying the
architectures. We evaluate our method on PASCAL VOC and MS COCO datasets. Our
method produces noticeably better class localization maps (67.3% mIoU on PASCAL
VOC train), resulting in superior WSSS performances.
- Abstract(参考訳): 本研究では,Wakly supervised semantic segmentation (WSSS) のためのオブジェクトのローカライズを改良したトランスフォーマーベース正規化を提案する。
画像レベルのWSSSでは、擬似セグメンテーションラベルとしてオブジェクトローカライゼーションを生成するためにクラスアクティベーションマップ(CAM)が採用されている。
CAMの部分的なアクティベーション問題に対処するために、様々な画像拡張におけるアクティベーション強度の不変性を維持するために整合正則化を用いる。
しかし、これらの手法は各CAM内の領域間のペアワイズ関係を無視し、コンテキストをキャプチャし、画像ビュー間で不変であるべきである。
そこで本研究では,新しい全対整合正規化(ACR)を提案する。
一対の拡張ビューが与えられた場合、我々のアプローチは、一対の拡張ビュー間でのアクティベーション強度を規則化するとともに、各ビュー内の領域間の親和性が一貫していることを保証する。
視覚トランスフォーマーを自己着脱機構として採用し,自然にペアワイズ親和性を埋め込む。
これにより、強調画像対の注目行列間の距離を簡易に調整できる。
さらに,クラストークンの勾配を利用した新しいクラス単位のローカライズ手法を提案する。
我々の手法はアーキテクチャを変更することなくトランスフォーマーを用いて既存のWSSSメソッドにシームレスに統合することができる。
PASCAL VOCおよびMS COCOデータセットを用いて本手法の評価を行った。
本手法はクラスローカライゼーションマップ(PASCAL VOC列車の67.3% mIoU)を著しく改善し,WSSS性能が向上した。
関連論文リスト
- DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Attention Guided CAM: Visual Explanations of Vision Transformer Guided
by Self-Attention [2.466595763108917]
本稿では,ViT に適応した注意誘導型可視化手法を提案する。
本手法は,クラスラベルのみを用いて,高精度なセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスを提供する。
論文 参考訳(メタデータ) (2024-02-07T03:43:56Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - GETAM: Gradient-weighted Element-wise Transformer Attention Map for
Weakly-supervised Semantic segmentation [29.184608129848105]
CAM(Class Activation Map)は通常、ピクセルレベルの擬似ラベルを提供するために生成される。
トランスフォーマーに基づく手法は、長距離依存性モデリングを用いたグローバルコンテキストの探索に非常に効果的である。
GETAMはすべてのフィーチャーマップ要素に対して微細なアクティベーションを示し、トランスフォーマー層にまたがるオブジェクトの異なる部分を明らかにする。
論文 参考訳(メタデータ) (2021-12-06T08:02:32Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。