論文の概要: Salient Mask-Guided Vision Transformer for Fine-Grained Classification
- arxiv url: http://arxiv.org/abs/2305.07102v1
- Date: Thu, 11 May 2023 19:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:46:23.505702
- Title: Salient Mask-Guided Vision Transformer for Fine-Grained Classification
- Title(参考訳): 微細粒度分類のためのsalient mask-guided vision transformer
- Authors: Dmitry Demidov, Muhammad Hamza Sharif, Aliakbar Abdurahimov, Hisham
Cholakkal, Fahad Shahbaz Khan
- Abstract要約: きめ細かい視覚分類(FGVC)は、コンピュータビジョンの問題である。
その主な難しさの1つは、最も差別的な階級間のばらつきを捉えることである。
シンプルで効果的なマスク誘導型視覚変換器(SM-ViT)を導入する。
- 参考スコア(独自算出の注目度): 48.1425692047256
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-grained visual classification (FGVC) is a challenging computer vision
problem, where the task is to automatically recognise objects from subordinate
categories. One of its main difficulties is capturing the most discriminative
inter-class variances among visually similar classes. Recently, methods with
Vision Transformer (ViT) have demonstrated noticeable achievements in FGVC,
generally by employing the self-attention mechanism with additional
resource-consuming techniques to distinguish potentially discriminative regions
while disregarding the rest. However, such approaches may struggle to
effectively focus on truly discriminative regions due to only relying on the
inherent self-attention mechanism, resulting in the classification token likely
aggregating global information from less-important background patches.
Moreover, due to the immense lack of the datapoints, classifiers may fail to
find the most helpful inter-class distinguishing features, since other
unrelated but distinctive background regions may be falsely recognised as being
valuable. To this end, we introduce a simple yet effective Salient Mask-Guided
Vision Transformer (SM-ViT), where the discriminability of the standard ViT`s
attention maps is boosted through salient masking of potentially discriminative
foreground regions. Extensive experiments demonstrate that with the standard
training procedure our SM-ViT achieves state-of-the-art performance on popular
FGVC benchmarks among existing ViT-based approaches while requiring fewer
resources and lower input image resolution.
- Abstract(参考訳): 細粒度視覚分類(fgvc)は、下位カテゴリから自動的にオブジェクトを認識するタスクであるコンピュータビジョンの問題である。
その主な難点の1つは、視覚的に類似したクラス間の最も差別的なクラス間分散を捉えることである。
近年,視覚変換器 (ViT) を用いた手法がFGVCにおいて顕著な成果をみせている。
しかし、そのようなアプローチは、固有の自己認識機構にのみ依存するため、真の差別的領域に効果的に焦点を合わせるのに苦労する可能性があり、その結果、分類トークンは重要でない背景パッチからグローバル情報を集約する可能性がある。
さらに、データポイントの欠如により、分類器はクラス間の識別に最も有用な特徴を見つけることができず、他の無関係だが独特な背景領域は誤認識される可能性がある。
この目的のために,標準ViTのアテンションマップの識別性は,潜在的に差別的な前景領域のサージェントマスキングによって向上する,シンプルで効果的なSalient Mask-Guided Vision Transformer(SM-ViT)を導入する。
大規模な実験により、SM-ViTは既存のVTベースのアプローチで人気の高いFGVCベンチマークの最先端のパフォーマンスを達成し、リソースの削減と入力画像の解像度の低下を図っている。
関連論文リスト
- Rethinking the Domain Gap in Near-infrared Face Recognition [65.7871950460781]
不均一顔認識(HFR)は、視覚領域(VIS)と近赤外領域(NIR)にまたがる複雑な顔画像マッチング作業を伴う。
HFRに関する既存の文献の多くは、ドメインギャップを主要な課題と認識し、それを入力レベルまたは機能レベルでブリッジする取り組みを指示している。
大規模同質なVISデータで事前トレーニングを行った場合、大規模ニューラルネットワークはより小さなニューラルネットワークとは異なり、HFRでは例外的なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-12-01T14:43:28Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction [21.11038841356125]
細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。
本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
論文 参考訳(メタデータ) (2022-04-21T13:35:38Z) - Mask-Guided Feature Extraction and Augmentation for Ultra-Fine-Grained
Visual Categorization [15.627971638835948]
超微細きめの視覚分類(Ultra-FGVC)問題も検討されている。
FGVCは、同じ種からオブジェクトを分類することを目的としており、Ultra-FGVCは、超微細な粒度で画像を分類するより難しい問題をターゲットにしている。
Ultra-FGVCの課題は主に2つの側面から成り立っている。
本稿では,画像の識別・情報領域を抽出するマスク誘導特徴抽出と特徴拡張手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T06:57:05Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - Interpretable Attention Guided Network for Fine-grained Visual
Classification [36.657203916383594]
細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。
細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。
論文 参考訳(メタデータ) (2021-03-08T12:27:51Z) - Fine-Grained Visual Classification via Progressive Multi-Granularity
Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。
最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。
本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-08T19:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。