論文の概要: Token Contrast for Weakly-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.01267v1
- Date: Thu, 2 Mar 2023 13:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:11:18.291947
- Title: Token Contrast for Weakly-Supervised Semantic Segmentation
- Title(参考訳): 弱改良セマンティックセグメンテーションのためのトークンコントラスト
- Authors: Lixiang Ru, Heliang Zheng, Yibing Zhan, Bo Du
- Abstract要約: 画像レベルのラベルを用いた弱スーパービジョンセマンティックス(WSSS)は、通常、クラスアクティベーションマップ(CAM)を使用して擬似ラベルを生成する。
この問題に対処するためにToken Contrast (ToCo)を提案する。
ToCoは他のシングルステージのライバルをはるかに上回り、最先端のマルチステージメソッドで同等のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 38.15573713446858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Semantic Segmentation (WSSS) using image-level labels
typically utilizes Class Activation Map (CAM) to generate the pseudo labels.
Limited by the local structure perception of CNN, CAM usually cannot identify
the integral object regions. Though the recent Vision Transformer (ViT) can
remedy this flaw, we observe it also brings the over-smoothing issue, \ie, the
final patch tokens incline to be uniform. In this work, we propose Token
Contrast (ToCo) to address this issue and further explore the virtue of ViT for
WSSS. Firstly, motivated by the observation that intermediate layers in ViT can
still retain semantic diversity, we designed a Patch Token Contrast module
(PTC). PTC supervises the final patch tokens with the pseudo token relations
derived from intermediate layers, allowing them to align the semantic regions
and thus yield more accurate CAM. Secondly, to further differentiate the
low-confidence regions in CAM, we devised a Class Token Contrast module (CTC)
inspired by the fact that class tokens in ViT can capture high-level semantics.
CTC facilitates the representation consistency between uncertain local regions
and global objects by contrasting their class tokens. Experiments on the PASCAL
VOC and MS COCO datasets show the proposed ToCo can remarkably surpass other
single-stage competitors and achieve comparable performance with
state-of-the-art multi-stage methods. Code is available at
https://github.com/rulixiang/ToCo.
- Abstract(参考訳): 画像レベルラベルを使用する弱い教師付きセマンティックセグメンテーション(wsss)は通常、クラスアクティベーションマップ(cam)を使用して擬似ラベルを生成する。
CNNの局所的な構造認識によって制限されたCAMは通常、統合対象領域を識別できない。
最近のViT(Vision Transformer)は、この欠陥を修復できるが、過度にスムースな問題である \ie、最終的なパッチトークンが一様であることを観察する。
本稿では,この問題に対処するためにトークンコントラスト(toco)を提案し,wsss における vit のメリットをさらに探究する。
まず,vitにおける中間層が意味的多様性を維持できるという観測に動機づけられ,パッチトークンコントラストモジュール (ptc) を設計した。
PTCは、中間層から派生した擬似トークン関係で最終パッチトークンを監督し、セマンティック領域を整列させ、より正確なCAMを生成する。
次に,camの低信頼領域をさらに差別化するために,vitのクラストークンが高レベルセマンティクスをキャプチャできるという事実に触発されたクラストークンコントラストモジュール(ctc)を考案した。
CTCは、クラストークンを対比することにより、不確実なローカルリージョンとグローバルオブジェクト間の表現整合性を促進する。
PASCAL VOCとMS COCOデータセットの実験は、提案されたToCoが他のシングルステージ競合を著しく上回り、最先端のマルチステージメソッドで同等のパフォーマンスを達成することを示している。
コードはhttps://github.com/rulixiang/tocoで入手できる。
関連論文リスト
- TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic Segmentation [3.4248731707266264]
本稿では,クラス(CNN)とセマンティック(ViT)の相補的知識を提供する2つの異なるアーキテクチャからなる新しい2つの分岐フレームワークを提案する。
我々のモデルはCoBraを通じてCNNとViTの補完的な出力を融合し、クラス情報とセマンティック情報の両方を効果的に統合する堅牢な擬似マスクを生成する。
論文 参考訳(メタデータ) (2024-02-05T12:33:37Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - Content-aware Token Sharing for Efficient Semantic Segmentation with
Vision Transformers [5.910159499687659]
本稿では,意味的セグメンテーションネットワークの計算効率を向上させるトークン削減手法であるCTS(Content-Aware Token Sharing)を提案する。
我々は、イメージパッチが同じセマンティッククラスを含んでいるかどうかを予測し、もしそうであればトークンを共有できるように、クラスに依存しないポリシーネットワークを採用している。
Content-Aware Token Sharingでは、セグメンテーションの品質を低下させることなく、処理されたトークンの数を最大44%削減できます。
論文 参考訳(メタデータ) (2023-06-03T12:05:07Z) - WeakTr: Exploring Plain Vision Transformer for Weakly-supervised
Semantic Segmentation [32.16796174578446]
本稿では、弱教師付きセマンティック(WSSS)のためのプレーンビジョン変換器(ViT)の特性について検討する。
我々はこの平易なTransformerベースのWeakly教師付き学習フレームワークをWeakTrと名付けた。
標準的なベンチマークでは、PASCAL VOC 2012のvalセットでは78.4% mIoU、COCO 2014のvalセットでは50.3% mIoUである。
論文 参考訳(メタデータ) (2023-04-03T17:54:10Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。