論文の概要: Spatial-Aware Token for Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2303.10438v2
- Date: Wed, 9 Aug 2023 07:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:49:01.979852
- Title: Spatial-Aware Token for Weakly Supervised Object Localization
- Title(参考訳): 弱教師付き物体定位のための空間認識トークン
- Authors: Pingyu Wu, Wei Zhai, Yang Cao, Jiebo Luo, Zheng-Jun Zha
- Abstract要約: タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 137.0570026552845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised object localization (WSOL) is a challenging task aiming to
localize objects with only image-level supervision. Recent works apply visual
transformer to WSOL and achieve significant success by exploiting the
long-range feature dependency in self-attention mechanism. However, existing
transformer-based methods synthesize the classification feature maps as the
localization map, which leads to optimization conflicts between classification
and localization tasks. To address this problem, we propose to learn a
task-specific spatial-aware token (SAT) to condition localization in a weakly
supervised manner. Specifically, a spatial token is first introduced in the
input space to aggregate representations for localization task. Then a spatial
aware attention module is constructed, which allows spatial token to generate
foreground probabilities of different patches by querying and to extract
localization knowledge from the classification task. Besides, for the problem
of sparse and unbalanced pixel-level supervision obtained from the image-level
label, two spatial constraints, including batch area loss and normalization
loss, are designed to compensate and enhance this supervision. Experiments show
that the proposed SAT achieves state-of-the-art performance on both CUB-200 and
ImageNet, with 98.45% and 73.13% GT-known Loc, respectively. Even under the
extreme setting of using only 1 image per class from ImageNet for training, SAT
already exceeds the SOTA method by 2.1% GT-known Loc. Code and models are
available at https://github.com/wpy1999/SAT.
- Abstract(参考訳): 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルの監督のみでオブジェクトをローカライズすることを目的とした課題である。
近年の研究では、視覚トランスフォーマーをwsolに適用し、セルフアテンションメカニズムの長距離特徴依存性を利用して大きな成功を収めている。
しかし,既存のトランスフォーマーに基づく手法は,分類特徴写像を局所化マップとして合成し,分類と局所化タスクの最適な衝突を引き起こす。
この問題に対処するために,タスク固有の空間認識トークン(SAT)を弱教師付き方式で条件付きで学習することを提案する。
具体的には、まず空間トークンを入力空間に導入し、局所化タスクの表現を集約する。
次に、クエリにより異なるパッチの前景確率を空間トークンが生成し、分類タスクから局所化知識を抽出する空間認識注意モジュールを構築する。
また、画像レベルラベルから得られる不均衡な画素レベル監督の問題に対して、バッチ領域損失と正規化損失を含む2つの空間制約により、この監督を補うように設計されている。
実験の結果、SATはCUB-200とImageNetの両方で、それぞれ98.45%と73.13%のGT-known Locを達成している。
トレーニングにImageNetから1つのクラスに1つの画像しか使わないという極端な設定下であっても、SATはSOTAメソッドを2.1%超えている。
コードとモデルはhttps://github.com/wpy1999/satで入手できる。
関連論文リスト
- Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration [20.322494442959762]
Wakly Supervised Object Localization (WSOL) は、実際のアプリケーションでアノテーションのコストが低いため、多くの注目を集めている。
パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ,正確なWSOLのためのシンプルで効果的な空間モジュール(SCM)を提案する。
SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
論文 参考訳(メタデータ) (2022-07-21T12:37:15Z) - ViTOL: Vision Transformer for Weakly Supervised Object Localization [0.735996217853436]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのカテゴリラベルのみを用いて、画像内のオブジェクト位置を予測することを目的としている。
画像分類モデルがローカライズ対象の場合に遭遇する一般的な課題は、(a) ローカライズマップを非常に小さな領域に限定する画像において最も識別性の高い特徴を見る傾向にあり、(b) ローカライズマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトする。
論文 参考訳(メタデータ) (2022-04-14T06:16:34Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。