論文の概要: ViTOL: Vision Transformer for Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2204.06772v1
- Date: Thu, 14 Apr 2022 06:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-16 00:18:09.897449
- Title: ViTOL: Vision Transformer for Weakly Supervised Object Localization
- Title(参考訳): ViTOL: 弱教師付きオブジェクトローカライゼーションのための視覚変換器
- Authors: Saurav Gupta, Sourav Lakhotia, Abhay Rawat, Rahul Tallamraju
- Abstract要約: 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのカテゴリラベルのみを用いて、画像内のオブジェクト位置を予測することを目的としている。
画像分類モデルがローカライズ対象の場合に遭遇する一般的な課題は、(a) ローカライズマップを非常に小さな領域に限定する画像において最も識別性の高い特徴を見る傾向にあり、(b) ローカライズマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトする。
- 参考スコア(独自算出の注目度): 0.735996217853436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised object localization (WSOL) aims at predicting object
locations in an image using only image-level category labels. Common challenges
that image classification models encounter when localizing objects are, (a)
they tend to look at the most discriminative features in an image that confines
the localization map to a very small region, (b) the localization maps are
class agnostic, and the models highlight objects of multiple classes in the
same image and, (c) the localization performance is affected by background
noise. To alleviate the above challenges we introduce the following simple
changes through our proposed method ViTOL. We leverage the vision-based
transformer for self-attention and introduce a patch-based attention dropout
layer (p-ADL) to increase the coverage of the localization map and a gradient
attention rollout mechanism to generate class-dependent attention maps. We
conduct extensive quantitative, qualitative and ablation experiments on the
ImageNet-1K and CUB datasets. We achieve state-of-the-art MaxBoxAcc-V2
localization scores of 70.47% and 73.17% on the two datasets respectively. Code
is available on https://github.com/Saurav-31/ViTOL
- Abstract(参考訳): weakly supervised object localization (wsol) は、画像レベルのカテゴリラベルのみを使用して、画像内のオブジェクトの位置を予測することを目的としている。
画像分類モデルがオブジェクトをローカライズするときの一般的な課題は
(a)局所写像を非常に小さな領域に限定した画像において、最も識別的な特徴を見る傾向にある。
(b)ローカライゼーションマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトし、
(c) 局所化性能は背景雑音の影響を受ける。
上記の課題を軽減するため、提案手法であるViTOLを用いて、以下の簡単な変更を導入する。
視覚ベースのトランスフォーマーを自己着脱に活用し,p-adl(patch-based attention dropout layer)を導入してローカライゼーションマップの範囲を拡大し,勾配注意ロールアウト機構によりクラス依存の注意マップを生成する。
imagenet-1k と cub データセットの量的・質的・アブレーション実験を行った。
最先端のMaxBoxAcc-V2ローカライゼーションスコアはそれぞれ70.47%と73.17%である。
コードはhttps://github.com/Saurav-31/ViTOLで入手できる。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Constrained Sampling for Class-Agnostic Weakly Supervised Object
Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T19:58:38Z) - Discriminative Sampling of Proposals in Self-Supervised Transformers for
Weakly Supervised Object Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T18:33:23Z) - Re-Attention Transformer for Weakly Supervised Object Localization [45.417606565085116]
本稿では,トークン精錬トランス (TRT) と呼ばれる再アテンション機構を提案する。
具体的には、TPSM(トークン優先スコアリングモジュール)と呼ばれる新しいモジュールを導入し、ターゲットオブジェクトにフォーカスしながらバックグラウンドノイズの影響を抑える。
論文 参考訳(メタデータ) (2022-08-03T04:34:28Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Rethinking the Route Towards Weakly Supervised Object Localization [28.90792512056726]
弱教師付きオブジェクトローカライゼーションは、クラスに依存しないオブジェクトローカライゼーションとオブジェクト分類の2つの部分に分けられるべきである。
クラス非依存のオブジェクトローカライゼーションでは、クラス非依存のメソッドを使用してノイズの多い擬似アノテーションを生成し、クラスラベルなしで境界ボックスのレグレッションを実行する必要がある。
我々のPSOLモデルは、微調整なしで異なるデータセット間で良好な転送性を持つ。
論文 参考訳(メタデータ) (2020-02-26T08:54:20Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。