論文の概要: DiPS: Discriminative Pseudo-Label Sampling with Self-Supervised
Transformers for Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2310.06196v1
- Date: Mon, 9 Oct 2023 22:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 21:29:17.017932
- Title: DiPS: Discriminative Pseudo-Label Sampling with Self-Supervised
Transformers for Weakly Supervised Object Localization
- Title(参考訳): DiPS: 弱教師付きオブジェクトローカライゼーションのための自己スーパーバイザ付き擬似ラベルサンプリング
- Authors: Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Aydin Sarraf,
Eric Granger
- Abstract要約: 識別的擬似ラベルサンプリング(DiPS)は、クラス非依存の写像を弱教師付きオブジェクトの局所化に活用するために導入された。
DiPSは、各アテンションマップの最も識別性の高い領域を特定するために、事前訓練された分類器に依存している。
オブジェクトのさまざまな部分をカバーするために、多様で差別的な提案の豊富なプールを提供する。
- 参考スコア(独自算出の注目度): 13.412674368913747
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised vision transformers (SSTs) have shown great potential to
yield rich localization maps that highlight different objects in an image.
However, these maps remain class-agnostic since the model is unsupervised. They
often tend to decompose the image into multiple maps containing different
objects while being unable to distinguish the object of interest from
background noise objects. In this paper, Discriminative Pseudo-label Sampling
(DiPS) is introduced to leverage these class-agnostic maps for
weakly-supervised object localization (WSOL), where only image-class labels are
available. Given multiple attention maps, DiPS relies on a pre-trained
classifier to identify the most discriminative regions of each attention map.
This ensures that the selected ROIs cover the correct image object while
discarding the background ones, and, as such, provides a rich pool of diverse
and discriminative proposals to cover different parts of the object.
Subsequently, these proposals are used as pseudo-labels to train our new
transformer-based WSOL model designed to perform classification and
localization tasks. Unlike standard WSOL methods, DiPS optimizes performance in
both tasks by using a transformer encoder and a dedicated output head for each
task, each trained using dedicated loss functions. To avoid overfitting a
single proposal and promote better object coverage, a single proposal is
randomly selected among the top ones for a training image at each training
step. Experimental results on the challenging CUB, ILSVRC, OpenImages, and
TelDrone datasets indicate that our architecture, in combination with our
transformer-based proposals, can yield better localization performance than
state-of-the-art methods.
- Abstract(参考訳): 自己監督型視覚変換器(SST)は、画像内の異なる物体をハイライトするリッチなローカライゼーションマップを生成する大きな可能性を示している。
しかし、モデルが教師なしであるため、これらの地図はクラスに依存しないままである。
彼らはしばしば、イメージを異なるオブジェクトを含む複数のマップに分解し、背景ノイズオブジェクトと関心のあるオブジェクトを区別できない傾向がある。
本稿では,識別的擬似ラベルサンプリング (DiPS) を導入し,これらのクラス非依存マップを画像分類ラベルのみの弱教師付きオブジェクトローカライゼーション (WSOL) に活用する。
複数の注意マップが与えられた場合、DiPSは、各注意マップの最も識別性の高い領域を特定するために、事前訓練された分類器に依存する。
これにより、選択されたROIが背景オブジェクトを破棄しながら正しいイメージオブジェクトをカバーすることが保証され、オブジェクトの異なる部分をカバーするための多様で差別的な提案の豊富なプールを提供する。
その後、これらの提案は、分類およびローカライゼーションタスクを実行するために設計された新しいトランスフォーマーベースのWSOLモデルをトレーニングするために擬似ラベルとして使用される。
標準的なWSOLメソッドとは異なり、DiPSはトランスフォーマーエンコーダと専用出力ヘッドを使用して各タスクのパフォーマンスを最適化する。
1つの提案に過度に適合せず、より良い対象カバレッジを促進するために、トレーニングステップ毎にトレーニング画像の上位1つに1つの提案をランダムに選択する。
CUB,ILSVRC,OpenImages,TelDroneの各データセットに対する実験結果から,我々のアーキテクチャとトランスフォーマーベースの提案を組み合わせることで,最先端の手法よりも優れたローカライゼーション性能が得られることが示された。
関連論文リスト
- Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Constrained Sampling for Class-Agnostic Weakly Supervised Object
Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T19:58:38Z) - Discriminative Sampling of Proposals in Self-Supervised Transformers for
Weakly Supervised Object Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T18:33:23Z) - Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly
Supervised Object Detection [54.24966006457756]
自己知識蒸留ネットワーク(SLV-SDネット)を用いたWSODフレームワークを提案する。
SLV-SD Netは、境界ボックスアノテーションなしで領域提案のローカライゼーションを収束させる。
PASCAL VOC 2007/2012およびMS-COCOデータセットの実験は、SLV-SD Netの優れた性能を示している。
論文 参考訳(メタデータ) (2022-04-14T11:56:19Z) - ViTOL: Vision Transformer for Weakly Supervised Object Localization [0.735996217853436]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのカテゴリラベルのみを用いて、画像内のオブジェクト位置を予測することを目的としている。
画像分類モデルがローカライズ対象の場合に遭遇する一般的な課題は、(a) ローカライズマップを非常に小さな領域に限定する画像において最も識別性の高い特徴を見る傾向にあり、(b) ローカライズマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトする。
論文 参考訳(メタデータ) (2022-04-14T06:16:34Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。