論文の概要: Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification
- arxiv url: http://arxiv.org/abs/2002.03353v1
- Date: Sun, 9 Feb 2020 12:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 14:42:47.769019
- Title: Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification
- Title(参考訳): 微視的分類のための弱教師付き注意ピラミッド畳み込みニューラルネットワーク
- Authors: Yifeng Ding, Shaoguo Wen, Jiyang Xie, Dongliang Chang, Zhanyu Ma,
Zhongwei Si, Haibin Ling
- Abstract要約: 注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 71.96618723152487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifying the sub-categories of an object from the same super-category
(e.g. bird species, car and aircraft models) in fine-grained visual
classification (FGVC) highly relies on discriminative feature representation
and accurate region localization. Existing approaches mainly focus on
distilling information from high-level features. In this paper, however, we
show that by integrating low-level information (e.g. color, edge junctions,
texture patterns), performance can be improved with enhanced feature
representation and accurately located discriminative regions. Our solution,
named Attention Pyramid Convolutional Neural Network (AP-CNN), consists of a) a
pyramidal hierarchy structure with a top-down feature pathway and a bottom-up
attention pathway, and hence learns both high-level semantic and low-level
detailed feature representation, and b) an ROI guided refinement strategy with
ROI guided dropblock and ROI guided zoom-in, which refines features with
discriminative local regions enhanced and background noises eliminated. The
proposed AP-CNN can be trained end-to-end, without the need of additional
bounding box/part annotations. Extensive experiments on three commonly used
FGVC datasets (CUB-200-2011, Stanford Cars, and FGVC-Aircraft) demonstrate that
our approach can achieve state-of-the-art performance. Code available at
\url{http://dwz1.cc/ci8so8a}
- Abstract(参考訳): オブジェクトのサブカテゴリを、同じスーパーカテゴリ(例えば、鳥種、車種、航空機モデル)から細粒度視覚分類(FGVC)に分類することは、識別的特徴表現と正確な地域局在に依存する。
既存のアプローチは主に高レベルの特徴から情報を抽出することに焦点を当てている。
しかし,本論文では,低レベル情報(色,エッジ接合,テクスチャパターンなど)を統合することにより,特徴表現の強化と正確な位置識別領域による性能の向上が図られている。
Attention Pyramid Convolutional Neural Network (AP-CNN) という名前の私たちのソリューションは
イ トップダウン特徴経路及びボトムアップ注意経路を有するピラミッド階層構造であって、ハイレベル意味論及び低レベル特徴表現の両方を学習すること。
b) ROI誘導のドロップブロックとROI誘導のズームインによるROI誘導の洗練戦略。
提案されたAP-CNNは、追加のバウンディングボックス/パートアノテーションなしで、エンドツーエンドでトレーニングすることができる。
一般的な3つのFGVCデータセット(CUB-200-2011、Stanford Cars、FGVC-Aircraft)に対する大規模な実験は、我々のアプローチが最先端のパフォーマンスを達成することを実証している。
コードは \url{http://dwz1.cc/ci8so8a} で利用可能
関連論文リスト
- TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Cross-layer Attention Network for Fine-grained Visual Categorization [12.249254142531381]
微妙な局部的詳細のための離散表現の学習は、きめ細かい視覚分類(FGVC)において重要な役割を果たす
提案するクロス層注意ネットワーク(CLAN)により,中間層特徴写像と上位層特徴写像の相互改善機構を構築する。
実験結果から,本手法は3つの一般公開された微粒化認識データセットの最先端化を図っている。
論文 参考訳(メタデータ) (2022-10-17T06:57:51Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - Re-rank Coarse Classification with Local Region Enhanced Features for
Fine-Grained Image Recognition [22.83821575990778]
そこで我々は,Top1の精度を向上させるため,TopN分類結果を局所的に拡張した埋め込み機能を用いて再評価した。
より効果的なセマンティクスグローバル機能を学ぶために、我々は、自動構築された階層的カテゴリ構造上のマルチレベル損失をデザインする。
本手法は,cub-200-2011,stanford cars,fgvc aircraftの3つのベンチマークで最新性能を実現する。
論文 参考訳(メタデータ) (2021-02-19T11:30:25Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Unsupervised Feedforward Feature (UFF) Learning for Point Cloud
Classification and Segmentation [57.62713515497585]
3次元点雲の連成分類とセグメンテーションのために,教師なしフィードフォワード特徴学習を提案する。
UFF法は、点雲セット内の点の統計的相関を利用して、1パスのフィードフォワード方式で形状と点の特徴を学習する。
エンコーダとローカルポイントでグローバルな形状の特徴を、エンコーダ-デコーダアーキテクチャを通して学習する。
論文 参考訳(メタデータ) (2020-09-02T18:25:25Z) - Hierarchical Bi-Directional Feature Perception Network for Person
Re-Identification [12.259747100939078]
過去の人物再同定(Re-ID)モデルは、画像の最も識別性の高い領域に焦点を当てることを目的としている。
本稿では,階層型双方向特徴知覚ネットワーク (HBFP-Net) という新しいモデルを提案する。
Market-1501, CUHK03, DukeMTMC-ReIDデータセットなどの主要な評価実験により, 提案手法が最近のSOTA Re-IDモデルより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-08T12:33:32Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。