論文の概要: Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification
- arxiv url: http://arxiv.org/abs/2106.10920v1
- Date: Mon, 21 Jun 2021 08:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:30:30.292987
- Title: Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification
- Title(参考訳): きめ細かい視覚分類のための層間ナビゲーション畳み込みニューラルネットワーク
- Authors: Chenyu Guo, Jiyang Xie, Kongming Liang, Xian Sun, Zhanyu Ma
- Abstract要約: FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 21.223130735592516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained visual classification (FGVC) aims to classify sub-classes of
objects in the same super-class (e.g., species of birds, models of cars). For
the FGVC tasks, the essential solution is to find discriminative subtle
information of the target from local regions. TraditionalFGVC models preferred
to use the refined features,i.e., high-level semantic information for
recognition and rarely use low-level in-formation. However, it turns out that
low-level information which contains rich detail information also has effect on
improving performance. Therefore, in this paper, we propose cross-layer
navigation convolutional neural network for feature fusion. First, the feature
maps extracted by the backbone network are fed into a convolutional long
short-term memory model sequentially from high-level to low-level to perform
feature aggregation. Then, attention mechanisms are used after feature fusion
to extract spatial and channel information while linking the high-level
semantic information and the low-level texture features, which can better
locate the discriminative regions for the FGVC. In the experiments, three
commonly used FGVC datasets, including CUB-200-2011, Stanford-Cars,
andFGVC-Aircraft datasets, are used for evaluation and we demonstrate the
superiority of the proposed method by comparing it with other referred FGVC
methods to show that this method achieves superior results.
- Abstract(参考訳): きめ細かい視覚分類(FGVC)は、同じスーパークラスのオブジェクトのサブクラス(例えば、鳥類の種類、車のモデル)を分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
従来のFGVCモデルは、高度な特徴、すなわち認識に高レベルな意味情報を使うことを好んでおり、低レベルな情報を使用することはめったにない。
しかし,より詳細な情報を含む低レベル情報も性能向上に寄与することが判明した。
そこで本稿では,機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
まず、バックボーンネットワークによって抽出された特徴マップを、高レベルから低レベルまで順次畳み込み長短期記憶モデルに入力して特徴集約を行う。
次に,高レベルの意味情報と低レベルのテクスチャ特徴をリンクしながら,特徴融合後の注意機構を用いて空間情報とチャネル情報を抽出し,FGVCの識別領域をよりよく特定する。
実験では、cub-200-2011、stanford-cars、およびfgvc-aircraftデータセットを含む3つの一般的なfgvcデータセットを用いて評価を行い、他の参照したfgvc法と比較することにより、この方法が優れた結果が得られることを示すことにより、提案手法の優越性を示す。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - ELFIS: Expert Learning for Fine-grained Image Recognition Using Subsets [6.632855264705276]
ファイングラインド・ビジュアル・認識のためのエキスパート・ラーニング・フレームワークであるELFISを提案する。
ニューラルネットワークベースのエキスパートのセットは、メタカテゴリに焦点を当ててトレーニングされ、マルチタスクフレームワークに統合される。
実験では、CNNとトランスフォーマーベースのネットワークを使用して、最大+1.3%の精度でSoTA FGVRベンチマークが改善された。
論文 参考訳(メタデータ) (2023-03-16T12:45:19Z) - R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction [21.11038841356125]
細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。
本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
論文 参考訳(メタデータ) (2022-04-21T13:35:38Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Unsupervised Feedforward Feature (UFF) Learning for Point Cloud
Classification and Segmentation [57.62713515497585]
3次元点雲の連成分類とセグメンテーションのために,教師なしフィードフォワード特徴学習を提案する。
UFF法は、点雲セット内の点の統計的相関を利用して、1パスのフィードフォワード方式で形状と点の特徴を学習する。
エンコーダとローカルポイントでグローバルな形状の特徴を、エンコーダ-デコーダアーキテクチャを通して学習する。
論文 参考訳(メタデータ) (2020-09-02T18:25:25Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。