論文の概要: Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization
- arxiv url: http://arxiv.org/abs/2309.01331v1
- Date: Mon, 4 Sep 2023 03:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:03:08.314098
- Title: Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization
- Title(参考訳): 弱教師付き物体定位のためのセマンティクス・コンストラントマッチングトランスフォーマ
- Authors: Yiwen Cao, Yukun Su, Wenjun Wang, Yanxia Liu and Qingyao Wu
- Abstract要約: 弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
- 参考スコア(独自算出の注目度): 31.039698757869974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised object localization (WSOL) strives to learn to localize
objects with only image-level supervision. Due to the local receptive fields
generated by convolution operations, previous CNN-based methods suffer from
partial activation issues, concentrating on the object's discriminative part
instead of the entire entity scope. Benefiting from the capability of the
self-attention mechanism to acquire long-range feature dependencies, Vision
Transformer has been recently applied to alleviate the local activation
drawbacks. However, since the transformer lacks the inductive localization bias
that are inherent in CNNs, it may cause a divergent activation problem
resulting in an uncertain distinction between foreground and background. In
this work, we proposed a novel Semantic-Constraint Matching Network (SCMN) via
a transformer to converge on the divergent activation. Specifically, we first
propose a local patch shuffle strategy to construct the image pairs, disrupting
local patches while guaranteeing global consistency. The paired images that
contain the common object in spatial are then fed into the Siamese network
encoder. We further design a semantic-constraint matching module, which aims to
mine the co-object part by matching the coarse class activation maps (CAMs)
extracted from the pair images, thus implicitly guiding and calibrating the
transformer network to alleviate the divergent activation. Extensive
experimental results conducted on two challenging benchmarks, including
CUB-200-2011 and ILSVRC datasets show that our method can achieve the new
state-of-the-art performance and outperform the previous method by a large
margin.
- Abstract(参考訳): weakly supervised object localization (wsol)は、画像レベルの監督だけでオブジェクトをローカライズすることを学ぶ。
畳み込み操作によって生成される局所受容場により、従来のCNNベースのメソッドは部分的なアクティベーションの問題に悩まされ、オブジェクトの識別部分に集中する。
長距離機能の依存関係を取得するための自己注意機構の能力から、Vision Transformerは、最近、ローカルアクティベーションの欠点を軽減するために採用されている。
しかし、トランスフォーマーはcnnに固有の帰納的局在バイアスを欠いているため、前景と背景の区別が不明瞭な、多様なアクティベーション問題を引き起こす可能性がある。
本研究では, 発散活性化に収束するトランスフォーマーを用いた, 新たなセマンティクス・コンストラントマッチングネットワーク (scmn) を提案する。
具体的には、まず、局所的なパッチシャッフル戦略を提案し、グローバルな一貫性を確保しながら、局所的なパッチを中断する。
空間上の共通対象を含むペア画像は、シャムネットワークエンコーダに送信される。
さらに,ペア画像から抽出した粗いクラスアクティベーションマップ(cams)を照合することで,協調対象部分をマイニングし,トランスフォーマーネットワークを暗黙的に誘導・校正し,ダイバージェントアクティベーションを緩和することを目的とした,セマンティック・コンストラントマッチングモジュールの設計を行った。
cub-200-2011とilsvrcデータセットを含む2つの難解なベンチマークで行った広範囲な実験結果から,本手法が新たな最先端性能を達成し,従来の手法を高いマージンで上回ることがわかった。
関連論文リスト
- Multiscale Vision Transformer With Deep Clustering-Guided Refinement for
Weakly Supervised Object Localization [4.300577895958228]
この研究は、弱教師付きオブジェクトローカライゼーションの課題に対処する。
様々なスケールでパッチ埋め込みを抽出する複数のオブジェクトローカライゼーション変換器を備える。
本稿では,局所化精度をさらに高めるディープクラスタリング誘導改良法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:46:44Z) - Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation [4.02487511510606]
弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法では、CNNベースのネットワークを採用し、クラスアクティベーションマップ(CAM)戦略を用いて対象領域を発見する。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用したデュアルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T08:41:11Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Dual Progressive Transformations for Weakly Supervised Semantic
Segmentation [23.68115323096787]
弱教師付きセマンティックセグメンテーション(WSSS)はコンピュータビジョンにおいて難しい課題である。
グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングするための畳み込みニューラルネットワーク精製変換器(CRT)を提案する。
提案したCRTは、弱教師付きセマンティックセグメンテーションタスクの両方において、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-30T03:42:52Z) - Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration [20.322494442959762]
Wakly Supervised Object Localization (WSOL) は、実際のアプリケーションでアノテーションのコストが低いため、多くの注目を集めている。
パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ,正確なWSOLのためのシンプルで効果的な空間モジュール(SCM)を提案する。
SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
論文 参考訳(メタデータ) (2022-07-21T12:37:15Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。