論文の概要: Progressive Co-Attention Network for Fine-grained Visual Classification
- arxiv url: http://arxiv.org/abs/2101.08527v1
- Date: Thu, 21 Jan 2021 10:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 16:49:26.509917
- Title: Progressive Co-Attention Network for Fine-grained Visual Classification
- Title(参考訳): 微細視分類のためのプログレッシブコアテンションネットワーク
- Authors: Tian Zhang, Dongliang Chang, Zhanyu Ma and Jun Guo
- Abstract要約: きめ細かい視覚分類は、同じカテゴリ内の複数のサブカテゴリに属する画像を認識することを目的としている。
既存のほとんどの方法は個々の画像のみを入力とする。
そこで本研究では,pca-net(progressive co-attention network)と呼ばれる効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 20.838908090777885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained visual classification aims to recognize images belonging to
multiple sub-categories within a same category. It is a challenging task due to
the inherently subtle variations among highly-confused categories. Most
existing methods only take individual image as input, which may limit the
ability of models to recognize contrastive clues from different images. In this
paper, we propose an effective method called progressive co-attention network
(PCA-Net) to tackle this problem. Specifically, we calculate the channel-wise
similarity by interacting the feature channels within same-category images to
capture the common discriminative features. Considering that complementary
imformation is also crucial for recognition, we erase the prominent areas
enhanced by the channel interaction to force the network to focus on other
discriminative regions. The proposed model can be trained in an end-to-end
manner, and only requires image-level label supervision. It has achieved
competitive results on three fine-grained visual classification benchmark
datasets: CUB-200-2011, Stanford Cars, and FGVC Aircraft.
- Abstract(参考訳): きめ細かい視覚分類は、同じカテゴリ内の複数のサブカテゴリに属する画像を認識することを目的としている。
これは、高度に強調されたカテゴリの本質的に微妙なバリエーションのため、困難なタスクである。
既存の手法のほとんどは個々の画像のみを入力として取り、異なる画像からの対照的な手がかりをモデルが認識する能力を制限する可能性がある。
本稿では,この問題に対処するために,pca-net(progressive co-attention network)と呼ばれる効果的な手法を提案する。
具体的には、同一カテゴリ画像内の特徴チャネルを相互作用させてチャネルワイドの類似性を計算し、共通の識別的特徴を捉える。
補完的インフォーメーションも認識に不可欠であると考えると、チャネルインタラクションによって強化された顕著な領域を消去し、ネットワークを他の識別領域に集中させる。
提案モデルはエンドツーエンドでトレーニング可能であり,イメージレベルのラベル管理のみを必要とする。
CUB-200-2011、Stanford Cars、FGVC Aircraftの3つのきめ細かな視覚分類ベンチマークデータセットで競合する結果を得た。
関連論文リスト
- Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Heterogeneous Visible-Thermal and Visible-Infrared Face Recognition
using Unit-Class Loss and Cross-Modality Discriminator [0.43748379918040853]
本稿では,クロスモーダル顔認識のためのエンドツーエンドフレームワークを提案する。
モダリティ情報を捨てつつアイデンティティ情報を保存するために,新しい単位クラス損失を提案する。
提案したネットワークは、モダリティ非依存のベクトル表現を抽出したり、テスト画像のマッチングペア分類に利用できる。
論文 参考訳(メタデータ) (2021-11-29T06:14:00Z) - A Compositional Feature Embedding and Similarity Metric for
Ultra-Fine-Grained Visual Categorization [16.843126268445726]
きめ細かい視覚分類(FGVC)は、クラス間の差異が小さいオブジェクトを分類することを目的としている。
本稿では,超微細な視覚分類のための新しい構成的特徴埋め込みと類似度指標(CECS)を提案する。
最近のベンチマーク手法を用いた2つの超FGVCデータセットと1つのFGVCデータセットの実験結果から,提案手法が最先端性能を実現することを一貫して示している。
論文 参考訳(メタデータ) (2021-09-25T15:05:25Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z) - Interpretable Attention Guided Network for Fine-grained Visual
Classification [36.657203916383594]
細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。
細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。
論文 参考訳(メタデータ) (2021-03-08T12:27:51Z) - Few-shot Image Classification with Multi-Facet Prototypes [48.583388368897126]
視覚的特徴をファセットに整理し、同じ種類の特徴を直感的にグループ化する。
カテゴリー名の事前訓練された埋め込みから、顔の重要性を予測することができる。
特に,あるカテゴリの集合に対して,予測されたフェーレット重み付けに依存する適応的類似度尺度を提案する。
論文 参考訳(メタデータ) (2021-02-01T12:43:03Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Channel Interaction Networks for Fine-Grained Image Categorization [61.095320862647476]
微妙なクラス間差のため、きめ細かい画像分類は困難である。
本稿では,チャネル・インタラクション・ネットワーク(CIN)を提案する。
我々のモデルは、多段階のトレーニングやテストを必要とせずに、エンドツーエンドで効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-03-11T11:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。