論文の概要: Cross-layer Attention Network for Fine-grained Visual Categorization
- arxiv url: http://arxiv.org/abs/2210.08784v1
- Date: Mon, 17 Oct 2022 06:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:38:27.174019
- Title: Cross-layer Attention Network for Fine-grained Visual Categorization
- Title(参考訳): きめ細かい視覚分類のための層間注意ネットワーク
- Authors: Ranran Huang, Yu Wang, Huazhong Yang
- Abstract要約: 微妙な局部的詳細のための離散表現の学習は、きめ細かい視覚分類(FGVC)において重要な役割を果たす
提案するクロス層注意ネットワーク(CLAN)により,中間層特徴写像と上位層特徴写像の相互改善機構を構築する。
実験結果から,本手法は3つの一般公開された微粒化認識データセットの最先端化を図っている。
- 参考スコア(独自算出の注目度): 12.249254142531381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning discriminative representations for subtle localized details plays a
significant role in Fine-grained Visual Categorization (FGVC). Compared to
previous attention-based works, our work does not explicitly define or localize
the part regions of interest; instead, we leverage the complementary properties
of different stages of the network, and build a mutual refinement mechanism
between the mid-level feature maps and the top-level feature map by our
proposed Cross-layer Attention Network (CLAN). Specifically, CLAN is composed
of 1) the Cross-layer Context Attention (CLCA) module, which enhances the
global context information in the intermediate feature maps with the help of
the top-level feature map, thereby improving the expressive power of the middle
layers, and 2) the Cross-layer Spatial Attention (CLSA) module, which takes
advantage of the local attention in the mid-level feature maps to boost the
feature extraction of local regions at the top-level feature maps. Experimental
results show our approach achieves state-of-the-art on three publicly available
fine-grained recognition datasets (CUB-200-2011, Stanford Cars and
FGVC-Aircraft). Ablation studies and visualizations are provided to understand
our approach. Experimental results show our approach achieves state-of-the-art
on three publicly available fine-grained recognition datasets (CUB-200-2011,
Stanford Cars and FGVC-Aircraft).
- Abstract(参考訳): 微妙な局所化詳細のための識別表現の学習は、きめ細かい視覚分類(FGVC)において重要な役割を果たす。
従来の注目に基づく研究と比較して、我々の研究は関心のある部分領域を明示的に定義・ローカライズするのではなく、ネットワークの異なる段階の補完特性を活用し、提案したクロスレイヤー注意ネットワーク(CLAN)による中層特徴マップと上位特徴マップの相互改善機構を構築する。
具体的には、CLANは、
1)中間特徴写像のグローバルコンテキスト情報を上位特徴写像の助けを借りて拡張し、中間特徴写像の表現力を向上させるクロスレイヤコンテキスト注意(CLCA)モジュール。
2)クロスレイヤー空間注意モジュール(CLSA)は,中層特徴マップにおける局所的注意を生かして,最上位特徴マップにおける局所的特徴領域の特徴抽出を促進する。
CUB-200-2011,Stanford Cars,FGVC-Aircraftの3つの粒度認識データセットに対して,本手法の有効性を実証した。
我々のアプローチを理解するためにアブレーション研究と可視化が提供される。
CUB-200-2011,Stanford Cars,FGVC-Aircraftの3つの粒度認識データセットに対して,本手法の有効性を実証した。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - COMNet: Co-Occurrent Matching for Weakly Supervised Semantic
Segmentation [13.244183864948848]
我々は,CAMの品質を向上し,オブジェクトの全体に対して注意を払うためにネットワークを強制する,新しいコオカレントマッチングネットワーク(COMNet)を提案する。
具体的には、共通クラスを含むペア画像のマッチングを行い、対応する領域を強化し、単一の画像上にマッチングを構築し、対象領域を横断する意味的特徴を伝達する。
The experiment on the Pascal VOC 2012 and MS-COCO datasets shows our network can effective boost the performance of the baseline model and a new-of-the-art performance。
論文 参考訳(メタデータ) (2023-09-29T03:55:24Z) - Weakly Supervised Semantic Segmentation by Knowledge Graph Inference [11.056545020611397]
本稿では、Wakly Supervised Semantic (WSSS)を強化するグラフ推論に基づくアプローチを提案する。
本研究の目的は,マルチラベル分類とセグメンテーションネットワークの段階を同時に拡張することで,WSSSを全体的改善することである。
PASCAL VOC 2012およびMS-COCOデータセット上でWSSSの最先端性能を達成した。
論文 参考訳(メタデータ) (2023-09-25T11:50:19Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Local Context Attention for Salient Object Segmentation [5.542044768017415]
本研究では,一様表現型アーキテクチャで局所強化特徴写像を生成するための新しいローカルコンテキスト注意ネットワーク(LCANet)を提案する。
提案するネットワークでは,粗い予測と大域的コンテキストの間の相関特徴写像を計算し,アテンショナル・コリレーション・フィルタ (ACF) モジュールを導入している。
いくつかの有能なオブジェクトセグメンテーションデータセットに対して総合的な実験を行い、提案したLCANetの最先端手法に対する優れた性能を実証した。
論文 参考訳(メタデータ) (2020-09-24T09:20:06Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。