論文の概要: Context-aware Attentional Pooling (CAP) for Fine-grained Visual
Classification
- arxiv url: http://arxiv.org/abs/2101.06635v1
- Date: Sun, 17 Jan 2021 10:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 01:07:24.271927
- Title: Context-aware Attentional Pooling (CAP) for Fine-grained Visual
Classification
- Title(参考訳): きめ細かい視覚分類のためのコンテキスト認識注意プール(CAP)
- Authors: Ardhendu Behera, Zachary Wharton, Pradeep Hewage, Asish Bera
- Abstract要約: 深層畳み込みニューラルネットワーク(CNN)は、画像認識のための識別対象ポーズと部品情報をマイニングする強力な能力を示しています。
サブピクセル勾配による微妙な変化を効果的にとらえる新しいコンテキスト認識型注意プーリング(CAP)を提案する。
我々は6つの最先端(SotA)バックボーンネットワークと8つのベンチマークデータセットを用いてアプローチを評価した。
- 参考スコア(独自算出の注目度): 2.963101656293054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep convolutional neural networks (CNNs) have shown a strong ability in
mining discriminative object pose and parts information for image recognition.
For fine-grained recognition, context-aware rich feature representation of
object/scene plays a key role since it exhibits a significant variance in the
same subcategory and subtle variance among different subcategories. Finding the
subtle variance that fully characterizes the object/scene is not
straightforward. To address this, we propose a novel context-aware attentional
pooling (CAP) that effectively captures subtle changes via sub-pixel gradients,
and learns to attend informative integral regions and their importance in
discriminating different subcategories without requiring the bounding-box
and/or distinguishable part annotations. We also introduce a novel feature
encoding by considering the intrinsic consistency between the informativeness
of the integral regions and their spatial structures to capture the semantic
correlation among them. Our approach is simple yet extremely effective and can
be easily applied on top of a standard classification backbone network. We
evaluate our approach using six state-of-the-art (SotA) backbone networks and
eight benchmark datasets. Our method significantly outperforms the SotA
approaches on six datasets and is very competitive with the remaining two.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(CNN)は、識別対象のポーズと画像認識のための部分情報のマイニングにおいて強力な能力を示している。
きめ細かな認識では、コンテキスト認識によるオブジェクト/シーンのリッチな特徴表現は、同じサブカテゴリにおいて大きなばらつきと異なるサブカテゴリ間の微妙なばらつきを示すため、重要な役割を果たす。
オブジェクト/シーンを完全に特徴付ける微妙な分散を見つけるのは簡単ではありません。
そこで本研究では,サブピクセル勾配による微妙な変化を効果的に捉えた新しいコンテキスト認識型注意プーリング(cap)を提案する。
また,その意味的相関を捉えるために,積分領域の情報性とその空間構造間の本質的な整合性を考慮した新しい特徴符号化を導入する。
我々のアプローチは単純だが極めて効果的であり、標準的な分類バックボーンネットワーク上で容易に適用できる。
我々は6つの最先端(SotA)バックボーンネットワークと8つのベンチマークデータセットを用いてアプローチを評価する。
提案手法はSotAアプローチを6つのデータセットで大幅に上回り,残りの2つと非常に競合する。
関連論文リスト
- Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained
Image Categorization [24.286426387100423]
本稿では,最も関連性の高い画像領域からコンテキスト認識機能を集約することで,微妙な変化を捉える手法を提案する。
我々のアプローチは、近年の自己注意とグラフニューラルネットワーク(GNN)の発展にインスパイアされている。
これは、認識精度のかなりの差で最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-05T19:43:15Z) - R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction [21.11038841356125]
細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。
本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
論文 参考訳(メタデータ) (2022-04-21T13:35:38Z) - Regional Semantic Contrast and Aggregation for Weakly Supervised
Semantic Segmentation [25.231470587575238]
本稿では,意味的セグメンテーションを学習するための地域意味的コントラストとアグリゲーション(RCA)を提案する。
RCAは、訓練データに現れる多種多様なオブジェクトパターンを格納する地域記憶バンクを備えている。
RCAは、きめ細かいセマンティック理解の強い能力を獲得し、最終的には2つの人気のあるベンチマークで新しい最先端の結果を確立する。
論文 参考訳(メタデータ) (2022-03-17T23:29:03Z) - Grasp-Oriented Fine-grained Cloth Segmentation without Real Supervision [66.56535902642085]
本稿では, 深度画像のみを用いて, 変形した衣服のきめ細かい領域検出の問題に取り組む。
最大で6つの意味領域を定義し, 首の縁, スリーブカフ, ヘム, 上と下をつかむ点を含む。
これらの部品のセグメント化とラベル付けを行うために,U-net ベースのネットワークを導入する。
合成データのみを用いてネットワークをトレーニングし、提案したDAが実データでトレーニングしたモデルと競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:31:20Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。