論文の概要: Know Your Attention Maps: Class-specific Token Masking for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2507.06848v1
- Date: Wed, 09 Jul 2025 13:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.602437
- Title: Know Your Attention Maps: Class-specific Token Masking for Weakly Supervised Semantic Segmentation
- Title(参考訳): 意識マップを知っておく: 微妙に監督されたセマンティックなセマンティックなセグメンテーションのためのクラス固有のToken Masking
- Authors: Joelle Hanna, Damian Borth,
- Abstract要約: Weakly Supervised Semantics (WSSS) のための Transformer Vision (ViT) で学習した注目マップを直接活用するエンドツーエンド手法を提案する。
推測時に,予測ラベルに対応する各[]トークンの異なる自己アテンションマップを集約し,擬似セグメンテーションマスクを生成する。
- 参考スコア(独自算出の注目度): 5.824064631226058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly Supervised Semantic Segmentation (WSSS) is a challenging problem that has been extensively studied in recent years. Traditional approaches often rely on external modules like Class Activation Maps to highlight regions of interest and generate pseudo segmentation masks. In this work, we propose an end-to-end method that directly utilizes the attention maps learned by a Vision Transformer (ViT) for WSSS. We propose training a sparse ViT with multiple [CLS] tokens (one for each class), using a random masking strategy to promote [CLS] token - class assignment. At inference time, we aggregate the different self-attention maps of each [CLS] token corresponding to the predicted labels to generate pseudo segmentation masks. Our proposed approach enhances the interpretability of self-attention maps and ensures accurate class assignments. Extensive experiments on two standard benchmarks and three specialized datasets demonstrate that our method generates accurate pseudo-masks, outperforming related works. Those pseudo-masks can be used to train a segmentation model which achieves results comparable to fully-supervised models, significantly reducing the need for fine-grained labeled data.
- Abstract(参考訳): 弱監視セマンティックセグメンテーション(WSSS)は近年広く研究されている課題である。
従来のアプローチは、関心のある領域を強調し、擬似セグメンテーションマスクを生成するために、クラスアクティベーションマップのような外部モジュールに依存することが多い。
そこで本研究では,WSSS の視覚変換器 (ViT) で学習した注目マップを直接活用するエンド・ツー・エンド方式を提案する。
複数の[CLS]トークン(クラス毎に1つ)でスパースViTをトレーニングし、[CLS]トークンのクラス割り当てを促進するランダムマスキング戦略を提案する。
推測時,予測されたラベルに対応する各[CLS]トークンの異なる自己アテンションマップを集約し,擬似セグメンテーションマスクを生成する。
提案手法は,自己アテンションマップの解釈可能性を高め,正確なクラス割り当てを保証する。
2つの標準ベンチマークと3つの特別なデータセットに関する大規模な実験は、我々の手法が正確な擬似マスクを生成し、関連する研究よりも優れていることを示した。
これらの擬似マスクは、完全に教師されたモデルに匹敵する結果が得られるセグメンテーションモデルをトレーニングするために使用することができ、きめ細かいラベル付きデータの必要性を著しく低減することができる。
関連論文リスト
- MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - Learning Class-Agnostic Pseudo Mask Generation for Box-Supervised
Semantic Segmentation [156.9155100983315]
ボックス教師付きセマンティクスセグメンテーションに合わせた,より正確な学習ベースのクラス非依存な擬似マスクジェネレータを求める。
この方法は、ボックス監視モデルとフル監視モデルの間のパフォーマンスギャップをさらに埋めることができます。
論文 参考訳(メタデータ) (2021-03-09T14:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。