論文の概要: TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization
- arxiv url: http://arxiv.org/abs/2103.14862v1
- Date: Sat, 27 Mar 2021 09:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:07:44.274934
- Title: TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization
- Title(参考訳): TS-CAM:弱教師付きオブジェクトローカライゼーションのためのToken Semantic Coupled Attention Map
- Authors: Wei Gao, Fang Wan, Xingjia Pan, Zhiliang Peng, Qi Tian, Zhenjun Han,
Bolei Zhou, Qixiang Ye
- Abstract要約: 弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
- 参考スコア(独自算出の注目度): 112.46381729542658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised object localization (WSOL) is a challenging problem when
given image category labels but requires to learn object localization models.
Optimizing a convolutional neural network (CNN) for classification tends to
activate local discriminative regions while ignoring complete object extent,
causing the partial activation issue. In this paper, we argue that partial
activation is caused by the intrinsic characteristics of CNN, where the
convolution operations produce local receptive fields and experience difficulty
to capture long-range feature dependency among pixels. We introduce the token
semantic coupled attention map (TS-CAM) to take full advantage of the
self-attention mechanism in visual transformer for long-range dependency
extraction. TS-CAM first splits an image into a sequence of patch tokens for
spatial embedding, which produce attention maps of long-range visual dependency
to avoid partial activation. TS-CAM then re-allocates category-related
semantics for patch tokens, enabling each of them to be aware of object
categories. TS-CAM finally couples the patch tokens with the semantic-agnostic
attention map to achieve semantic-aware localization. Experiments on the
ILSVRC/CUB-200-2011 datasets show that TS-CAM outperforms its CNN-CAM
counterparts by 7.1%/27.1% for WSOL, achieving state-of-the-art performance.
- Abstract(参考訳): 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像カテゴリラベルが与えられた場合に難しい問題であるが、オブジェクトローカライゼーションモデルを学ぶ必要がある。
分類のための畳み込みニューラルネットワーク(CNN)の最適化は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向にあり、部分的な活性化問題を引き起こす。
本稿では,CNNの内在的特性によって部分的アクティベーションが生じると論じ,コンボリューション操作によって局所受容野が生成され,画素間の長距離特徴依存性を捉えることが困難になる。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
TS-CAMはまず、画像を空間埋め込みのためのパッチトークンのシーケンスに分割し、部分的なアクティベーションを避けるために長距離視覚依存の注意マップを生成する。
TS-CAMは、パッチトークンのカテゴリ関連セマンティクスを再配置し、それぞれがオブジェクトカテゴリを認識できるようにする。
TS-CAMは最終的にパッチトークンと意味認識の注意マップを結合して意味認識のローカライゼーションを実現する。
ILSVRC/CUB-200-2011データセットの実験では、TS-CAMはWSOLのCNN-CAMよりも7.1%/27.1%向上し、最先端のパフォーマンスを達成した。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Anti-Adversarially Manipulated Attributions for Weakly Supervised
Semantic Segmentation and Object Localization [31.69344455448125]
本稿では,最終ソフトマックス層やシグモイド層の前に分類器が生成する分類スコアを増やすために操作した画像の属性マップを提案する。
この操作は対逆的な方法で実現され、元の画像は対逆攻撃で使用されるものと反対方向に画素勾配に沿って摂動される。
さらに,対象物に関係のない領域の不正な帰属と,対象物の小さな領域への過剰な帰属の集中を抑制する新たな正規化手法を導入する。
論文 参考訳(メタデータ) (2022-04-11T06:18:02Z) - Contrastive learning of Class-agnostic Activation Map for Weakly
Supervised Object Localization and Semantic Segmentation [32.76127086403596]
ラベルなし画像データを用いたクラス非依存型活性化マップ(C$2$AM)生成のためのコントラスト学習を提案する。
我々は上記の関係に基づいて正対と負の対を形成し、ネットワークを前景と背景を乱すように強制する。
ネットワークは画像前景を識別するために誘導されるため,本手法で学習したクラス非依存のアクティベーションマップは,より完全なオブジェクト領域を生成する。
論文 参考訳(メタデータ) (2022-03-25T08:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。