論文の概要: Re-Attention Transformer for Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2208.01838v1
- Date: Wed, 3 Aug 2022 04:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:43:47.249593
- Title: Re-Attention Transformer for Weakly Supervised Object Localization
- Title(参考訳): 弱監視対象位置定位のための再アテンション変換器
- Authors: Hui Su, Yue Ye, Zhiwei Chen, Mingli Song, Lechao Cheng
- Abstract要約: 本稿では,トークン精錬トランス (TRT) と呼ばれる再アテンション機構を提案する。
具体的には、TPSM(トークン優先スコアリングモジュール)と呼ばれる新しいモジュールを導入し、ターゲットオブジェクトにフォーカスしながらバックグラウンドノイズの影響を抑える。
- 参考スコア(独自算出の注目度): 45.417606565085116
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Weakly supervised object localization is a challenging task which aims to
localize objects with coarse annotations such as image categories. Existing
deep network approaches are mainly based on class activation map, which focuses
on highlighting discriminative local region while ignoring the full object. In
addition, the emerging transformer-based techniques constantly put a lot of
emphasis on the backdrop that impedes the ability to identify complete objects.
To address these issues, we present a re-attention mechanism termed token
refinement transformer (TRT) that captures the object-level semantics to guide
the localization well. Specifically, TRT introduces a novel module named token
priority scoring module (TPSM) to suppress the effects of background noise
while focusing on the target object. Then, we incorporate the class activation
map as the semantically aware input to restrain the attention map to the target
object. Extensive experiments on two benchmarks showcase the superiority of our
proposed method against existing methods with image category annotations.
Source code is available in
\url{https://github.com/su-hui-zz/ReAttentionTransformer}.
- Abstract(参考訳): 弱教師付きオブジェクトローカライゼーションは、画像カテゴリのような粗いアノテーションでオブジェクトをローカライズすることを目的とした課題である。
既存のディープネットワークアプローチは、主にクラスアクティベーションマップに基づいており、完全なオブジェクトを無視しながら、識別的局所領域の強調に焦点を当てている。
さらに、新しいトランスフォーマーベースの技術は、完全なオブジェクトを識別する能力を妨げている背景に常に重点を置いている。
これらの問題に対処するため,我々は,オブジェクトレベルのセマンティクスをキャプチャしてローカライゼーションをうまく導くための再アテンション機構であるtokenfineization transformer (trt)を提案する。
具体的には、TPSM(トークン優先スコアリングモジュール)と呼ばれる新しいモジュールを導入し、ターゲットオブジェクトにフォーカスしながらバックグラウンドノイズの影響を抑制する。
次に、クラスアクティベーションマップを意味的に認識した入力として取り入れ、対象オブジェクトに対するアテンションマップを抑制する。
2つのベンチマークに関する広範囲な実験は、画像カテゴリアノテーションを用いた既存のメソッドに対する提案手法の優位性を示している。
ソースコードは \url{https://github.com/su-hui-zz/reattentiontransformer} で入手できる。
関連論文リスト
- Improving Object Detection via Local-global Contrastive Learning [27.660633883387753]
本稿では,クロスドメインオブジェクト検出を対象とする画像から画像への変換手法を提案する。
ローカル・グローバル情報と対比することでオブジェクトを表現することを学ぶ。
これにより、ドメインシフトの下で、パフォーマンス検出(Performant detection)の取得という、未調査の課題の調査が可能になる。
論文 参考訳(メタデータ) (2024-10-07T14:18:32Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Constrained Sampling for Class-Agnostic Weakly Supervised Object
Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T19:58:38Z) - ViTOL: Vision Transformer for Weakly Supervised Object Localization [0.735996217853436]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのカテゴリラベルのみを用いて、画像内のオブジェクト位置を予測することを目的としている。
画像分類モデルがローカライズ対象の場合に遭遇する一般的な課題は、(a) ローカライズマップを非常に小さな領域に限定する画像において最も識別性の高い特徴を見る傾向にあり、(b) ローカライズマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトする。
論文 参考訳(メタデータ) (2022-04-14T06:16:34Z) - Background-aware Classification Activation Map for Weakly Supervised
Object Localization [14.646874544729426]
対象と背景の両方のローカライズスコアを同時に学習するための背景認識型分類活性化マップ(B-CAM)を提案する。
我々のB-CAMは、提案したスタガー分類損失に基づいてエンドツーエンドで訓練することができる。
実験の結果,我々のB-CAMはCUB-200,OpenImages,VOC2012データセット上で一段階WSOL法より優れていた。
論文 参考訳(メタデータ) (2021-12-29T03:12:09Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - Weakly-Supervised Semantic Segmentation via Sub-category Exploration [73.03956876752868]
我々は、オブジェクトの他の部分に注意を払うために、ネットワークを強制する単純で効果的なアプローチを提案する。
具体的には、画像の特徴をクラスタリングして、アノテーション付き親クラスごとに擬似サブカテゴリラベルを生成する。
提案手法の有効性を検証し,提案手法が最先端手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2020-08-03T20:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。