論文の概要: Focus Longer to See Better:Recursively Refined Attention for
Fine-Grained Image Classification
- arxiv url: http://arxiv.org/abs/2005.10979v1
- Date: Fri, 22 May 2020 03:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:15:14.266304
- Title: Focus Longer to See Better:Recursively Refined Attention for
Fine-Grained Image Classification
- Title(参考訳): よりよく見れるよう焦点を合わせる:細粒度画像分類のための再検討
- Authors: Prateek Shroff, Tianlong Chen, Yunchao Wei, Zhangyang Wang
- Abstract要約: Deep Neural Networkは、粗い粒度の画像分類タスクにおいて大きな進歩を見せている。
本稿では,これらの限界差に着目して,より代表的な特徴を抽出する。
我々のネットワークは、画像の一部に繰り返し焦点を合わせ、クラス間の小さな識別的部分を見つける。
- 参考スコア(独自算出の注目度): 148.4492675737644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Network has shown great strides in the coarse-grained image
classification task. It was in part due to its strong ability to extract
discriminative feature representations from the images. However, the marginal
visual difference between different classes in fine-grained images makes this
very task harder. In this paper, we tried to focus on these marginal
differences to extract more representative features. Similar to human vision,
our network repetitively focuses on parts of images to spot small
discriminative parts among the classes. Moreover, we show through
interpretability techniques how our network focus changes from coarse to fine
details. Through our experiments, we also show that a simple attention model
can aggregate (weighted) these finer details to focus on the most dominant
discriminative part of the image. Our network uses only image-level labels and
does not need bounding box/part annotation information. Further, the simplicity
of our network makes it an easy plug-n-play module. Apart from providing
interpretability, our network boosts the performance (up to 2%) when compared
to its baseline counterparts. Our codebase is available at
https://github.com/TAMU-VITA/Focus-Longer-to-See-Better
- Abstract(参考訳): ディープニューラルネットワークは、粗粒画像分類タスクにおいて大きな進歩を示している。
それは、画像から識別的特徴表現を抽出する能力が強かったためでもある。
しかし、微細な画像の異なるクラス間の視覚的な差は、この問題を非常に難しくする。
本稿では,これらの限界差に着目し,より代表的な特徴の抽出を試みた。
人間の視覚と同様に、我々のネットワークは画像の一部に繰り返し焦点を合わせ、クラス内の小さな識別的部分を見つける。
さらに、ネットワークの焦点が粗いものから細かいものへとどのように変化するかの解釈可能性技術を通して示す。
また,実験により,これらの細部を集約(重み付け)し,画像の最も重要な判別部分に焦点をあてることができることを示した。
ネットワークは画像レベルのラベルのみを使用し,バウンディングボックス/部分アノテーション情報を必要としない。
さらに、ネットワークのシンプルさによって、プラグインnプレイモジュールも簡単になります。
解釈性の提供とは別に、ネットワークはベースラインに比べてパフォーマンス(最大2%)を向上します。
私たちのコードベースはhttps://github.com/TAMU-VITA/Focus-Longer-to-See-Betterで公開されています。
関連論文リスト
- Unlocking Feature Visualization for Deeper Networks with MAgnitude
Constrained Optimization [17.93878159391899]
解釈可能な画像を生成するためのシンプルなアプローチであるMACOについて述べる。
我々のアプローチは、質的にも定量的にも、はるかに優れた結果をもたらし、大きな最先端のニューラルネットワークのための効率的かつ解釈可能な特徴視覚化を解き放つ。
特徴可視化手法の比較のための新しいベンチマークで本手法を検証し,画像Netデータセットの全クラスを対象とした可視化結果をリリースする。
論文 参考訳(メタデータ) (2023-06-11T23:33:59Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Shallow Feature Based Dense Attention Network for Crowd Counting [103.67446852449551]
静止画像から群衆を数えるためのShallow機能に基づくDense Attention Network (SDANet)を提案する。
提案手法は,SDANetの11.9%の平均絶対誤差(MAE)低下から明らかなように,既存の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-06-17T13:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。