論文の概要: Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2203.02891v1
- Date: Sun, 6 Mar 2022 07:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:20:15.580649
- Title: Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation
- Title(参考訳): 弱教師付き意味セグメンテーションのためのマルチクラストークントランスフォーマ
- Authors: Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Dan Xu
- Abstract要約: 弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
- 参考スコア(独自算出の注目度): 94.78965643354285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new transformer-based framework to learn class-specific
object localization maps as pseudo labels for weakly supervised semantic
segmentation (WSSS). Inspired by the fact that the attended regions of the
one-class token in the standard vision transformer can be leveraged to form a
class-agnostic localization map, we investigate if the transformer model can
also effectively capture class-specific attention for more discriminative
object localization by learning multiple class tokens within the transformer.
To this end, we propose a Multi-class Token Transformer, termed as MCTformer,
which uses multiple class tokens to learn interactions between the class tokens
and the patch tokens. The proposed MCTformer can successfully produce
class-discriminative object localization maps from class-to-patch attentions
corresponding to different class tokens. We also propose to use a patch-level
pairwise affinity, which is extracted from the patch-to-patch transformer
attention, to further refine the localization maps. Moreover, the proposed
framework is shown to fully complement the Class Activation Mapping (CAM)
method, leading to remarkably superior WSSS results on the PASCAL VOC and MS
COCO datasets. These results underline the importance of the class token for
WSSS.
- Abstract(参考訳): 本稿では,クラス固有のオブジェクトローカライゼーションマップを,wsss (weakly supervised semantic segmentation) のための擬似ラベルとして学習するためのトランスフォーマティブベースフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て,トランスフォーマーモデルが,トランスフォーマー内の複数のクラストークンを学習することで,より識別性の高いオブジェクトローカライゼーションのために,クラス固有の注意を効果的に捉えることができるかどうかを検討する。
そこで本研究では,MCTformerと呼ばれるマルチクラストークン変換器を提案し,複数のクラストークンを用いて,クラストークンとパッチトークン間のインタラクションを学習する。
提案したMCTformerは,異なるクラストークンに対応するクラス間アテンションから,クラス別オブジェクトローカライゼーションマップを作成できる。
また,patch-to-patch変圧器の注意から抽出したパッチレベルのペアワイズ親和性を用いて,局在マップをさらに洗練することを提案する。
さらに,提案フレームワークは,クラス活性化マッピング(CAM)手法を完全に補完し,PASCAL VOCおよびMS COCOデータセット上でのWSSS結果が極めて優れていることを示す。
これらの結果は、WSSSのクラストークンの重要性を浮き彫りにする。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - All-pairs Consistency Learning for Weakly Supervised Semantic
Segmentation [42.66269050864235]
Weakly supervised semantic segmentation (WSSS) のためのオブジェクトのローカライズに適したトランスフォーマーベース正規化を提案する。
我々は、ペアワイズ親和性を自然に埋め込む自己注意機構として、視覚変換器を採用する。
本手法は, PASCAL VOC列車のクラスローカライゼーションマップ(67.3% mIoU)を顕著に向上させる。
論文 参考訳(メタデータ) (2023-08-08T15:14:23Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - SemFormer: Semantic Guided Activation Transformer for Weakly Supervised
Semantic Segmentation [36.80638177024504]
本稿では,WSSS用Semantic Guided Activation Transformer(Semantic Guided Activation Transformer)(SemFormer)というトランスフォーマーベースのフレームワークを提案する。
我々は、入力画像のクラス埋め込みを抽出し、データセットの全クラスのクラスセマンティクスを学習するために、トランスフォーマーベースのクラス認識オートエンコーダ(CAAE)を設計する。
当社のSemFormerは textbf74.3% mIoU を達成し、PASCAL VOC 2012 データセットで多くの主要な WSSS アプローチをはるかに上回っている。
論文 参考訳(メタデータ) (2022-10-26T10:51:20Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Cross-domain Detection Transformer based on Spatial-aware and
Semantic-aware Token Alignment [31.759205815348658]
クロスドメイン検出変換器のための空間認識および意味認識トークンアライメント(SSTA)と呼ばれる新しい手法を提案する。
空間認識型トークンアライメントでは、クロスアテンションマップ(CAM)から情報を抽出して、トークンの分布をオブジェクトクエリへの注目に応じて調整することができる。
意味認識型トークンアライメントでは、カテゴリ情報をクロスアテンションマップに注入し、ドメイン埋め込みを構築し、マルチクラスの識別器の学習をガイドする。
論文 参考訳(メタデータ) (2022-06-01T04:13:22Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。