論文の概要: Grad-CAM guided channel-spatial attention module for fine-grained visual
classification
- arxiv url: http://arxiv.org/abs/2101.09666v1
- Date: Sun, 24 Jan 2021 07:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 08:06:13.677512
- Title: Grad-CAM guided channel-spatial attention module for fine-grained visual
classification
- Title(参考訳): 細粒度視覚分類のためのグラッドCAM誘導チャネル空間アテンションモジュール
- Authors: Shuai Xu, Dongliang Chang, Jiyang Xie, and Zhanyu Ma
- Abstract要約: ファイングラインド視覚分類(FGVC)のためのGrad-CAMガイドチャネル空間的注意モジュールを提案する。
grad-camを用いて、粗いローカライゼーションマップを生成して注意重みを監督し、制約する。
提案手法は、FGVCタスクにおける最新(SOTA)注意モジュールを上回っている。
- 参考スコア(独自算出の注目度): 16.097903865384698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained visual classification (FGVC) is becoming an important research
field, due to its wide applications and the rapid development of computer
vision technologies. The current state-of-the-art (SOTA) methods in the FGVC
usually employ attention mechanisms to first capture the semantic parts and
then discover their subtle differences between distinct classes. The
channel-spatial attention mechanisms, which focus on the discriminative
channels and regions simultaneously, have significantly improved the
classification performance. However, the existing attention modules are poorly
guided since part-based detectors in the FGVC depend on the network learning
ability without the supervision of part annotations. As obtaining such part
annotations is labor-intensive, some visual localization and explanation
methods, such as gradient-weighted class activation mapping (Grad-CAM), can be
utilized for supervising the attention mechanism. We propose a Grad-CAM guided
channel-spatial attention module for the FGVC, which employs the Grad-CAM to
supervise and constrain the attention weights by generating the coarse
localization maps. To demonstrate the effectiveness of the proposed method, we
conduct comprehensive experiments on three popular FGVC datasets, including
CUB-$200$-$2011$, Stanford Cars, and FGVC-Aircraft datasets. The proposed
method outperforms the SOTA attention modules in the FGVC task. In addition,
visualizations of feature maps also demonstrate the superiority of the proposed
method against the SOTA approaches.
- Abstract(参考訳): 細粒度視覚分類(fgvc)はその広い応用とコンピュータビジョン技術の急速な発展により、重要な研究分野となっている。
FGVCの現在の最先端(SOTA)メソッドは通常、注意機構を使用して、まずセマンティック部分をキャプチャし、それから異なるクラス間の微妙な違いを発見する。
識別チャネルと領域を同時に重視するチャネル空間的注意機構は,分類性能を著しく向上させた。
しかし,fgvcの部局型検出器は,部局アノテーションを使わずにネットワーク学習能力に依存するため,既存の注意モジュールの案内は不十分である。
このような部分アノテーションを得るのに手間がかかるため、勾配強調クラスアクティベーションマッピング(grad-cam)のような視覚的なローカライゼーションや説明手法が注意機構の監視に利用できる。
粗いローカライゼーションマップを生成することで、注意重みを監視・制約するためにGrad-CAMを利用するFGVC用のGrad-CAMガイドチャネル空間アテンションモジュールを提案する。
提案手法の有効性を示すため,CUB-200$-2011$,Stanford Cars,FGVC-Aircraftデータセットを含む3つのFGVCデータセットの総合的な実験を行った。
提案手法は,FGVCタスクにおけるSOTAアテンションモジュールよりも優れている。
さらに, 特徴マップの可視化により, sotaアプローチに対する提案手法の優位性が示された。
関連論文リスト
- Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - Bridge the Gap between Supervised and Unsupervised Learning for
Fine-Grained Classification [31.7997891193293]
非教師なし視覚分類(FGVC)は、汎用オブジェクト分類(GOC)や人物のリIDよりも難しい。
本稿では,教師付きFGVCと教師なしFGVCのギャップを軽減するために,UFCLと呼ばれるシンプルで効果的で実践的な手法を提案する。
教師なしのFGVC設定では、最先端の結果が得られ、重要な要因と重要なパラメータを解析する。
論文 参考訳(メタデータ) (2022-03-01T13:33:00Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Interpretable Attention Guided Network for Fine-grained Visual
Classification [36.657203916383594]
細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。
細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。
論文 参考訳(メタデータ) (2021-03-08T12:27:51Z) - Unsupervised Feedforward Feature (UFF) Learning for Point Cloud
Classification and Segmentation [57.62713515497585]
3次元点雲の連成分類とセグメンテーションのために,教師なしフィードフォワード特徴学習を提案する。
UFF法は、点雲セット内の点の統計的相関を利用して、1パスのフィードフォワード方式で形状と点の特徴を学習する。
エンコーダとローカルポイントでグローバルな形状の特徴を、エンコーダ-デコーダアーキテクチャを通して学習する。
論文 参考訳(メタデータ) (2020-09-02T18:25:25Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Dual-attention Guided Dropblock Module for Weakly Supervised Object
Localization [24.77267786084476]
本稿では、弱教師付きオブジェクト位置決めのための情報的および補完的視覚パターンの学習を目的とした、二重アテンション誘導型ドロップブロックモジュール(DGDM)を提案する。
実験により,提案手法は,新しい最先端のローカライゼーション性能を実現することを示す。
論文 参考訳(メタデータ) (2020-03-09T05:07:50Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。