論文の概要: MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2308.03005v1
- Date: Sun, 6 Aug 2023 03:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:20:18.193003
- Title: MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation
- Title(参考訳): mctformer+: 弱い教師付き意味セグメンテーションのためのマルチクラストークントランスフォーマ
- Authors: Lian Xu, Mohammed Bennamoun, Farid Boussaid, Hamid Laga, Wanli Ouyang,
Dan Xu
- Abstract要約: 弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
- 参考スコア(独自算出の注目度): 90.73815426893034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel transformer-based framework that aims to enhance
weakly supervised semantic segmentation (WSSS) by generating accurate
class-specific object localization maps as pseudo labels. Building upon the
observation that the attended regions of the one-class token in the standard
vision transformer can contribute to a class-agnostic localization map, we
explore the potential of the transformer model to capture class-specific
attention for class-discriminative object localization by learning multiple
class tokens. We introduce a Multi-Class Token transformer, which incorporates
multiple class tokens to enable class-aware interactions with the patch tokens.
To achieve this, we devise a class-aware training strategy that establishes a
one-to-one correspondence between the output class tokens and the ground-truth
class labels. Moreover, a Contrastive-Class-Token (CCT) module is proposed to
enhance the learning of discriminative class tokens, enabling the model to
better capture the unique characteristics and properties of each class. As a
result, class-discriminative object localization maps can be effectively
generated by leveraging the class-to-patch attentions associated with different
class tokens. To further refine these localization maps, we propose the
utilization of patch-level pairwise affinity derived from the patch-to-patch
transformer attention. Furthermore, the proposed framework seamlessly
complements the Class Activation Mapping (CAM) method, resulting in
significantly improved WSSS performance on the PASCAL VOC 2012 and MS COCO 2014
datasets. These results underline the importance of the class token for WSSS.
- Abstract(参考訳): 本稿では,wsss(weakly supervised semantic segmentation, 弱教師付き意味セグメンテーション)を疑似ラベルとして正確なクラス固有オブジェクトローカライゼーションマップを生成することを目的とした,新しいトランスフォーマフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域がクラス非依存のローカライゼーションマップに寄与できるという観測に基づいて,複数のクラストークンを学習することでクラス固有のオブジェクトローカライゼーションに対するクラス固有の注意を捕捉するトランスフォーマーモデルの可能性を探る。
マルチクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
これを実現するために,出力クラストークンと接地クラスラベルとの1対1対応を確立するクラス対応トレーニング戦略を考案する。
さらに、識別型クラストークンの学習を強化するために、Contrastive-Class-Token (CCT)モジュールを提案する。
その結果、クラス別オブジェクトローカライゼーションマップは、異なるクラストークンに関連するクラス間アテンションを活用することで、効果的に生成できる。
これらの局在マップをさらに洗練するために,パッチ・ツー・パッチトランスの注意から生じるパッチレベルのペアワイズ親和性の利用を提案する。
さらに,提案フレームワークはクラス活性化マッピング(CAM)手法をシームレスに補完し,PASCAL VOC 2012およびMS COCO 2014データセット上でのWSSS性能を大幅に改善する。
これらの結果は、WSSSのクラストークンの重要性を浮き彫りにする。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Boosting Semantic Segmentation from the Perspective of Explicit Class
Embeddings [19.997929884477628]
クラス埋め込みのメカニズムを探求し、クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。
マルチステージ画像特徴との相互作用において,クラス埋め込みを明示的に獲得・拡張する新たなセグメンテーションパラダイムであるECENetを提案する。
ECENetはADE20Kデータセットよりもはるかに少ない計算コストでパフォーマンスを向上し、PASCAL-Contextデータセット上で新たな最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-24T16:16:10Z) - All-pairs Consistency Learning for Weakly Supervised Semantic
Segmentation [42.66269050864235]
Weakly supervised semantic segmentation (WSSS) のためのオブジェクトのローカライズに適したトランスフォーマーベース正規化を提案する。
我々は、ペアワイズ親和性を自然に埋め込む自己注意機構として、視覚変換器を採用する。
本手法は, PASCAL VOC列車のクラスローカライゼーションマップ(67.3% mIoU)を顕著に向上させる。
論文 参考訳(メタデータ) (2023-08-08T15:14:23Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。