論文の概要: In-sample Contrastive Learning and Consistent Attention for Weakly
Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2009.12063v1
- Date: Fri, 25 Sep 2020 07:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-14 23:08:38.128466
- Title: In-sample Contrastive Learning and Consistent Attention for Weakly
Supervised Object Localization
- Title(参考訳): 弱教師付き物体定位のためのサンプル内コントラスト学習と一貫した注意
- Authors: Minsong Ki, Youngjung Uh, Wonyoung Lee, Hyeran Byun
- Abstract要約: 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルの監視のみを使用して対象オブジェクトをローカライズすることを目的としている。
最近の手法は、最も識別性の高い部分を落として、オブジェクト全体の特徴マップを活性化することをモデルに推奨している。
我々は背景を,高度な対象領域をカバーするために機能活性化を導く重要な手がかりとみなす。
- 参考スコア(独自算出の注目度): 18.971497314227275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised object localization (WSOL) aims to localize the target
object using only the image-level supervision. Recent methods encourage the
model to activate feature maps over the entire object by dropping the most
discriminative parts. However, they are likely to induce excessive extension to
the backgrounds which leads to over-estimated localization. In this paper, we
consider the background as an important cue that guides the feature activation
to cover the sophisticated object region and propose contrastive attention
loss. The loss promotes similarity between foreground and its dropped version,
and, dissimilarity between the dropped version and background. Furthermore, we
propose foreground consistency loss that penalizes earlier layers producing
noisy attention regarding the later layer as a reference to provide them with a
sense of backgroundness. It guides the early layers to activate on objects
rather than locally distinctive backgrounds so that their attentions to be
similar to the later layer. For better optimizing the above losses, we use the
non-local attention blocks to replace channel-pooled attention leading to
enhanced attention maps considering the spatial similarity. Last but not least,
we propose to drop background regions in addition to the most discriminative
region. Our method achieves state-of-theart performance on CUB-200-2011 and
ImageNet benchmark datasets regarding top-1 localization accuracy and
MaxBoxAccV2, and we provide detailed analysis on our individual components. The
code will be publicly available online for reproducibility.
- Abstract(参考訳): weakly supervised object localization (wsol) は、画像レベルの監視のみを使用して対象オブジェクトをローカライズすることを目的としている。
最近の手法は、最も識別性の高い部分を落として、オブジェクト全体の特徴マップを活性化することをモデルに推奨している。
しかし、背景への過度な拡張を誘発し、過度に推定されるローカライズにつながる可能性がある。
本稿では,その背景を,高度な対象領域をカバーするために機能活性化を導く重要な手がかりとみなし,対照的な注意喪失を提案する。
この損失はフォアグラウンドとドロップされたバージョンとの類似性を促進し、ドロップされたバージョンと背景の類似性を促進する。
さらに,後層に対するノイズを生じさせる初期層を暗示する前景の整合性損失を基準として提案し,背景感を与える。
初期レイヤがローカルに識別された背景ではなく、オブジェクト上でアクティベートするようにガイドし、それらの注目が後のレイヤと似ているようにします。
上記の損失を最適化するために,非局所的アテンションブロックを用いてチャネルプール型アテンションを置き換え,空間的類似性を考慮したアテンションマップを強化した。
最後に、最も差別的な領域に加えて、背景領域をドロップすることを提案する。
CUB-200-2011 と ImageNet ベンチマークを用いて,トップ1 のローカライゼーション精度と MaxBoxAccV2 に関する最先端性能と各コンポーネントの詳細な分析を行った。
コードは再現性のためにオンラインで公開されている。
関連論文リスト
- Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - Re-Attention Transformer for Weakly Supervised Object Localization [45.417606565085116]
本稿では,トークン精錬トランス (TRT) と呼ばれる再アテンション機構を提案する。
具体的には、TPSM(トークン優先スコアリングモジュール)と呼ばれる新しいモジュールを導入し、ターゲットオブジェクトにフォーカスしながらバックグラウンドノイズの影響を抑える。
論文 参考訳(メタデータ) (2022-08-03T04:34:28Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Anti-Adversarially Manipulated Attributions for Weakly Supervised
Semantic Segmentation and Object Localization [31.69344455448125]
本稿では,最終ソフトマックス層やシグモイド層の前に分類器が生成する分類スコアを増やすために操作した画像の属性マップを提案する。
この操作は対逆的な方法で実現され、元の画像は対逆攻撃で使用されるものと反対方向に画素勾配に沿って摂動される。
さらに,対象物に関係のない領域の不正な帰属と,対象物の小さな領域への過剰な帰属の集中を抑制する新たな正規化手法を導入する。
論文 参考訳(メタデータ) (2022-04-11T06:18:02Z) - Contrastive learning of Class-agnostic Activation Map for Weakly
Supervised Object Localization and Semantic Segmentation [32.76127086403596]
ラベルなし画像データを用いたクラス非依存型活性化マップ(C$2$AM)生成のためのコントラスト学習を提案する。
我々は上記の関係に基づいて正対と負の対を形成し、ネットワークを前景と背景を乱すように強制する。
ネットワークは画像前景を識別するために誘導されるため,本手法で学習したクラス非依存のアクティベーションマップは,より完全なオブジェクト領域を生成する。
論文 参考訳(メタデータ) (2022-03-25T08:46:24Z) - Location-Free Camouflage Generation Network [82.74353843283407]
カモフラージュ(Camouflage)は一般的な視覚現象で、前景の物体を背景のイメージに隠すことで、人間の目からは一時的に見えなくなる。
本稿では,前景と背景像の高次特徴を融合させ,一つの推論によって結果を生成する,ロケーションフリーなカモフラージュ生成ネットワーク(LCG-Net)を提案する。
実験により,本手法は単一外観領域における最先端技術と同程度に良好であり,完全に見えない可能性が低いが,多外観領域における最先端技術の品質をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2022-03-18T10:33:40Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Coarse- and Fine-grained Attention Network with Background-aware Loss
for Crowd Density Map Estimation [2.690502103971799]
CFANetは、高品質な群衆密度マップを生成する新しい方法であり、人を数える。
集合領域認識器 (CRR) と密度レベル推定器 (DLE) を結合して, 粗大から細大に進行する注意機構を考案する。
提案手法は,従来の最先端手法をカウント精度で上回るだけでなく,密度マップの画質の向上や,誤認識率の低減にも寄与する。
論文 参考訳(メタデータ) (2020-11-07T08:05:54Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。