論文の概要: Fine-Grained Visual Classification with Efficient End-to-end
Localization
- arxiv url: http://arxiv.org/abs/2005.05123v1
- Date: Mon, 11 May 2020 14:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:29:26.772408
- Title: Fine-Grained Visual Classification with Efficient End-to-end
Localization
- Title(参考訳): 効率的なエンドツーエンドの局所化による細粒度視覚分類
- Authors: Harald Hanselmann and Hermann Ney
- Abstract要約: 本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
- 参考スコア(独自算出の注目度): 49.9887676289364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The term fine-grained visual classification (FGVC) refers to classification
tasks where the classes are very similar and the classification model needs to
be able to find subtle differences to make the correct prediction.
State-of-the-art approaches often include a localization step designed to help
a classification network by localizing the relevant parts of the input images.
However, this usually requires multiple iterations or passes through a full
classification network or complex training schedules. In this work we present
an efficient localization module that can be fused with a classification
network in an end-to-end setup. On the one hand the module is trained by the
gradient flowing back from the classification network. On the other hand, two
self-supervised loss functions are introduced to increase the localization
accuracy. We evaluate the new model on the three benchmark datasets
CUB200-2011, Stanford Cars and FGVC-Aircraft and are able to achieve
competitive recognition performance.
- Abstract(参考訳): 細粒度視覚分類(FGVC)という用語は、クラスが非常に類似しており、分類モデルが正しい予測を行うために微妙な違いを見つける必要がある分類タスクを指す。
最先端のアプローチは、入力画像の関連部分をローカライズすることで分類ネットワークを支援するように設計されたローカライゼーションステップを含むことが多い。
しかし、これは通常、複数のイテレーションを必要とするか、完全な分類ネットワークまたは複雑なトレーニングスケジュールを通過する。
本稿では,エンド・ツー・エンドの設定で分類ネットワークと融合できる効率的なローカライズモジュールを提案する。
一方、モジュールは分類ネットワークから逆流する勾配によって訓練される。
一方, 2つの自己教師付き損失関数を導入し, 位置推定精度を高めた。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で新しいモデルを評価し,競争力のある認識性能を実現する。
関連論文リスト
- Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - A Novel Plug-in Module for Fine-Grained Visual Classification [0.19336815376402716]
本稿では,多くの一般的なバックボーンと一体化して,強力な識別領域を提供する新しいプラグインモジュールを提案する。
実験の結果,提案するプラグインモジュールは最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-02-08T12:35:58Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Re-rank Coarse Classification with Local Region Enhanced Features for
Fine-Grained Image Recognition [22.83821575990778]
そこで我々は,Top1の精度を向上させるため,TopN分類結果を局所的に拡張した埋め込み機能を用いて再評価した。
より効果的なセマンティクスグローバル機能を学ぶために、我々は、自動構築された階層的カテゴリ構造上のマルチレベル損失をデザインする。
本手法は,cub-200-2011,stanford cars,fgvc aircraftの3つのベンチマークで最新性能を実現する。
論文 参考訳(メタデータ) (2021-02-19T11:30:25Z) - Equivalent Classification Mapping for Weakly Supervised Temporal Action
Localization [92.58946210982411]
微弱に監督された時間的行動の局所化は近年、新しく広く研究されているトピックである。
事前分類パイプラインは、まず、各ビデオスニペットの分類を行い、次いで、スニペットレベルの分類スコアを集約して、ビデオレベルの分類スコアを得る。
後分類パイプラインは、まずスニペットレベルの特徴を集約し、集約された特徴に基づいてビデオレベルの分類スコアを予測する。
論文 参考訳(メタデータ) (2020-08-18T03:54:56Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z) - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective [98.70226503904402]
現実世界のオブジェクトの周波数は、しばしば電力法則に従い、長い尾のクラス分布を持つデータセット間のミスマッチを引き起こす。
メタラーニング手法を用いて,クラス条件分布の違いを明示的に推定し,古典的なクラスバランス学習を強化することを提案する。
論文 参考訳(メタデータ) (2020-03-24T11:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。