論文の概要: TransCAM: Transformer Attention-based CAM Refinement for Weakly
Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2203.07239v1
- Date: Mon, 14 Mar 2022 16:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 19:26:36.926129
- Title: TransCAM: Transformer Attention-based CAM Refinement for Weakly
Supervised Semantic Segmentation
- Title(参考訳): トランスカム:低教師付きセマンティクスセグメンテーションのためのトランスフォーマーアテンションに基づくカムリファインメント
- Authors: Ruiwen Li, Zheda Mai, Chiheb Trabelsi, Zhibo Zhang, Jongseong Jang,
Scott Sanner
- Abstract要約: 弱教師付きセマンティックセグメンテーションのための Conformer ベースのソリューション TransCAM を提案する。
PASCAL VOC 2012の検証とテストセットにおいて,TransCAMは69.3%,69.6%の新たな最先端性能を実現している。
- 参考スコア(独自算出の注目度): 19.333543299407832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised semantic segmentation (WSSS) with only image-level
supervision is a challenging task. Most existing methods exploit Class
Activation Maps (CAM) to generate pixel-level pseudo labels for supervised
training. However, due to the local receptive field of Convolution Neural
Networks (CNN), CAM applied to CNNs often suffers from partial activation --
highlighting the most discriminative part instead of the entire object area. In
order to capture both local features and global representations, the Conformer
has been proposed to combine a visual transformer branch with a CNN branch. In
this paper, we propose TransCAM, a Conformer-based solution to WSSS that
explicitly leverages the attention weights from the transformer branch of the
Conformer to refine the CAM generated from the CNN branch. TransCAM is
motivated by our observation that attention weights from shallow transformer
blocks are able to capture low-level spatial feature similarities while
attention weights from deep transformer blocks capture high-level semantic
context. Despite its simplicity, TransCAM achieves a new state-of-the-art
performance of 69.3% and 69.6% on the respective PASCAL VOC 2012 validation and
test sets, showing the effectiveness of transformer attention-based refinement
of CAM for WSSS.
- Abstract(参考訳): 画像レベルの監視のみを伴う弱教師付きセマンティックセグメンテーション(WSSS)は難しい課題である。
既存のほとんどのメソッドは、クラスアクティベーションマップ(CAM)を使用して、教師付きトレーニングのためにピクセルレベルの擬似ラベルを生成する。
しかし、畳み込みニューラルネットワーク(cnn)の局所受容領域のため、cnnに適用されたcamは、オブジェクト領域全体ではなく最も識別的な部分において、部分的な活性化に苦しむことが多い。
局所的特徴と大域的表現の両方を捉えるため、コンフォーメータは視覚トランスフォーマーブランチとcnnブランチを組み合わせるために提案されている。
本稿では,CNNブランチから発生するCAMを改良するために,変換器の変換器ブランチからの注意重みを明示的に活用する,変換器ベースのWSSSソリューションであるTransCAMを提案する。
トランスカムの動機は,浅いトランスフォーマーブロックからの注意重みが低レベルの空間的特徴の類似性を捉えつつ,深いトランスフォーマーブロックからの注意重みが高レベルの意味的文脈を捉えている点にある。
その単純さにもかかわらず、TransCAMはPASCAL VOC 2012バリデーションとテストセットで69.3%と69.6%の新たな最先端性能を実現し、WSSSのCAMの変換による改良の有効性を示している。
関連論文リスト
- Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - Max Pooling with Vision Transformers reconciles class and shape in
weakly supervised semantic segmentation [0.0]
本研究は,CAMをベースとせず,ViT-PCM (ViT Patch-Class Mapping) と呼ばれる新しいWSSS手法を提案する。
当社のモデルは,PascalVOC 2012 $val$setで69.3%のmIoUを達成した,ベースライン擬似マスク(BPM)の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-10-31T15:32:23Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。