論文の概要: A Novel Plug-in Module for Fine-Grained Visual Classification
- arxiv url: http://arxiv.org/abs/2202.03822v1
- Date: Tue, 8 Feb 2022 12:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 21:33:55.905549
- Title: A Novel Plug-in Module for Fine-Grained Visual Classification
- Title(参考訳): 細粒度視覚分類のための新しいプラグインモジュール
- Authors: Po-Yung Chou, Cheng-Hung Lin, Wen-Chung Kao
- Abstract要約: 本稿では,多くの一般的なバックボーンと一体化して,強力な識別領域を提供する新しいプラグインモジュールを提案する。
実験の結果,提案するプラグインモジュールは最先端のアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 0.19336815376402716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual classification can be divided into coarse-grained and fine-grained
classification. Coarse-grained classification represents categories with a
large degree of dissimilarity, such as the classification of cats and dogs,
while fine-grained classification represents classifications with a large
degree of similarity, such as cat species, bird species, and the makes or
models of vehicles. Unlike coarse-grained visual classification, fine-grained
visual classification often requires professional experts to label data, which
makes data more expensive. To meet this challenge, many approaches propose to
automatically find the most discriminative regions and use local features to
provide more precise features. These approaches only require image-level
annotations, thereby reducing the cost of annotation. However, most of these
methods require two- or multi-stage architectures and cannot be trained
end-to-end. Therefore, we propose a novel plug-in module that can be integrated
to many common backbones, including CNN-based or Transformer-based networks to
provide strongly discriminative regions. The plugin module can output
pixel-level feature maps and fuse filtered features to enhance fine-grained
visual classification. Experimental results show that the proposed plugin
module outperforms state-of-the-art approaches and significantly improves the
accuracy to 92.77\% and 92.83\% on CUB200-2011 and NABirds, respectively. We
have released our source code in Github
https://github.com/chou141253/FGVC-PIM.git.
- Abstract(参考訳): 視覚分類は粗粒度と細粒度に分けることができる。
粗粒度分類は、猫と犬の分類のような大きな異種性を持つカテゴリーを表し、細粒度分類は、猫種、鳥類種、車両の造形またはモデルのような大きな類似性を持つ分類を表す。
粗い視覚分類とは異なり、きめ細かい視覚分類では、専門家がデータをラベル付けする必要があることが多い。
この課題に対処するため、多くのアプローチが、最も差別的な領域を自動的に見つけ、より正確な機能を提供するために、ローカル機能を使用することを提案している。
これらのアプローチは画像レベルのアノテーションのみを必要とするため、アノテーションのコストが削減される。
しかし、これらの手法の多くは2段階または多段階のアーキテクチャを必要とし、エンドツーエンドで訓練することはできない。
そこで本研究では,CNNベースのネットワークやTransformerベースのネットワークなど,多くの一般的なバックボーンと統合可能なプラグインモジュールを提案する。
プラグインモジュールは、ピクセルレベルの特徴マップとヒューズフィルタリング機能を出力して、きめ細かい視覚的分類を強化することができる。
実験の結果,CUB200-2011 および NABirds において,提案したプラグインモジュールの精度は92.77\%,92.83\% に向上した。
ソースコードはGithub https://github.com/chou141253/FGVC-PIM.gitで公開しています。
関連論文リスト
- FAST: A Dual-tier Few-Shot Learning Paradigm for Whole Slide Image Classification [23.323845050957196]
既存のWSI分類法では、少数のきめ細かいラベルや弱い教師付きスライドラベルしか使用していない。
利用可能なWSIを十分にマイニングすることができず、WSI分類性能を著しく制限しています。
本稿では,WSI分類のためのFASTという,新規で効率的な2層複数ショット学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-29T14:31:52Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Efficient Subclass Segmentation in Medical Images [3.383033695275859]
コストを削減するための実現可能な方法の1つは、補体として限定されたきめ細かいアノテーションを使用しながら、粗い粒度のスーパークラスラベルでアノテートすることである。
セマンティックセグメンテーションタスクにおけるきめ細かいサブクラスの効率的な学習に関する研究が不足している。
提案手法は,サブクラスアノテーションが限定された完全サブクラスアノテーションと十分なスーパークラスアノテーションで訓練されたモデルに匹敵する精度を実現する。
論文 参考訳(メタデータ) (2023-07-01T07:39:08Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Combining Metric Learning and Attention Heads For Accurate and Efficient
Multilabel Image Classification [0.0]
マルチラベル分類における2つの一般的なアプローチについて再検討する。
トランスフォーマーベースヘッドはグラフベースのブランチよりも優れた結果が得られると考えられるが、適切なトレーニング戦略により、グラフベースの手法はわずかに精度の低下を示すことができると論じる。
論文 参考訳(メタデータ) (2022-09-14T12:06:47Z) - Meta Learning for Few-Shot One-class Classification [0.0]
メタ学習問題として,一級分類における意味のある特徴の学習を定式化する。
これらの表現を学習するには、類似したタスクからのマルチクラスデータのみが必要である。
数ショットの分類データセットを、数ショットの1クラスの分類シナリオに適応させることで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-09-11T11:35:28Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。