論文の概要: MoRe: Class Patch Attention Needs Regularization for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2412.11076v3
- Date: Fri, 17 Jan 2025 07:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:57:43.153956
- Title: MoRe: Class Patch Attention Needs Regularization for Weakly Supervised Semantic Segmentation
- Title(参考訳): MoRe: 教師付きセマンティックセグメンテーションのためのクラスパッチアテンションの規則化
- Authors: Zhiwei Yang, Yucong Meng, Kexue Fu, Shuo Wang, Zhijian Song,
- Abstract要約: そこで本研究では,最小のセマンティック関連性を持つパッチ領域を誤動作させる問題に対処するため,MoReを提案する。
以上の結果から,クラスパッチ注意にさらなる正規化を加える必要があることが示唆された。
MoReはアーティファクトの問題を効果的に解決し、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 12.308473939796945
- License:
- Abstract: Weakly Supervised Semantic Segmentation (WSSS) with image-level labels typically uses Class Activation Maps (CAM) to achieve dense predictions. Recently, Vision Transformer (ViT) has provided an alternative to generate localization maps from class-patch attention. However, due to insufficient constraints on modeling such attention, we observe that the Localization Attention Maps (LAM) often struggle with the artifact issue, i.e., patch regions with minimal semantic relevance are falsely activated by class tokens. In this work, we propose MoRe to address this issue and further explore the potential of LAM. Our findings suggest that imposing additional regularization on class-patch attention is necessary. To this end, we first view the attention as a novel directed graph and propose the Graph Category Representation module to implicitly regularize the interaction among class-patch entities. It ensures that class tokens dynamically condense the related patch information and suppress unrelated artifacts at a graph level. Second, motivated by the observation that CAM from classification weights maintains smooth localization of objects, we devise the Localization-informed Regularization module to explicitly regularize the class-patch attention. It directly mines the token relations from CAM and further supervises the consistency between class and patch tokens in a learnable manner. Extensive experiments are conducted on PASCAL VOC and MS COCO, validating that MoRe effectively addresses the artifact issue and achieves state-of-the-art performance, surpassing recent single-stage and even multi-stage methods. Code is available at https://github.com/zwyang6/MoRe.
- Abstract(参考訳): 画像レベルのラベルを持つ弱監視セマンティックセマンティックセグメンテーション(WSSS)は、一般的にクラスアクティベーションマップ(CAM)を使用して密集した予測を行う。
近年、ViT(Vision Transformer)は、クラスパッチアテンションからローカライズマップを生成する代替手段を提供している。
しかし,そのような注意をモデル化する上での制約が不十分なため,局所化注意マップ(LAM)がアーティファクト問題に悩まされることがしばしばある。
本稿では,この問題に対処するためのMoReを提案するとともに,LAMの可能性をさらに探求する。
以上の結果から,クラスパッチ注意にさらなる正規化を加える必要があることが示唆された。
この目的のために、まず、注目を新しい有向グラフとみなし、クラスパッチエンティティ間の相互作用を暗黙的に規則化するグラフカテゴリ表現モジュールを提案する。
クラストークンが関連するパッチ情報を動的にコンデンスし、無関係なアーティファクトをグラフレベルで抑制することを保証する。
第2に,分類重みからのCAMがオブジェクトのスムーズな局所化を維持しているという観測から,クラスパッチの注意を明示的に正規化するために,局所化インフォームされた正規化モジュールを考案した。
CAMから直接トークン関係をマイニングし、学習可能な方法でクラスとパッチトークン間の一貫性を監督する。
PASCAL VOCとMS COCOで大規模な実験を行い、MoReがアーティファクト問題に効果的に対処し、最先端のパフォーマンスを達成し、最近のシングルステージやマルチステージの手法を超越していることを検証した。
コードはhttps://github.com/zwyang6/MoRe.comで入手できる。
関連論文リスト
- Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - All-pairs Consistency Learning for Weakly Supervised Semantic
Segmentation [42.66269050864235]
Weakly supervised semantic segmentation (WSSS) のためのオブジェクトのローカライズに適したトランスフォーマーベース正規化を提案する。
我々は、ペアワイズ親和性を自然に埋め込む自己注意機構として、視覚変換器を採用する。
本手法は, PASCAL VOC列車のクラスローカライゼーションマップ(67.3% mIoU)を顕著に向上させる。
論文 参考訳(メタデータ) (2023-08-08T15:14:23Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - Re-Attention Transformer for Weakly Supervised Object Localization [45.417606565085116]
本稿では,トークン精錬トランス (TRT) と呼ばれる再アテンション機構を提案する。
具体的には、TPSM(トークン優先スコアリングモジュール)と呼ばれる新しいモジュールを導入し、ターゲットオブジェクトにフォーカスしながらバックグラウンドノイズの影響を抑える。
論文 参考訳(メタデータ) (2022-08-03T04:34:28Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。