論文の概要: Global-Local Similarity for Efficient Fine-Grained Image Recognition with Vision Transformers
- arxiv url: http://arxiv.org/abs/2407.12891v1
- Date: Wed, 17 Jul 2024 10:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:52:52.660040
- Title: Global-Local Similarity for Efficient Fine-Grained Image Recognition with Vision Transformers
- Title(参考訳): 視覚変換器を用いた高精細画像認識のためのグローバルローカル類似性
- Authors: Edwin Arkel Rios, Min-Chun Hu, Bo-Cheng Lai,
- Abstract要約: 微粒な認識には、下位のマクロカテゴリからのイメージの分類が含まれる。
本稿では,画像中の識別領域を識別する新しい,計算コストの低い指標を提案する。
提案手法は,提案手法よりも計算コストの低い結果が得られる。
- 参考スコア(独自算出の注目度): 5.825612611197359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained recognition involves the classification of images from subordinate macro-categories, and it is challenging due to small inter-class differences. To overcome this, most methods perform discriminative feature selection enabled by a feature extraction backbone followed by a high-level feature refinement step. Recently, many studies have shown the potential behind vision transformers as a backbone for fine-grained recognition, but their usage of its attention mechanism to select discriminative tokens can be computationally expensive. In this work, we propose a novel and computationally inexpensive metric to identify discriminative regions in an image. We compare the similarity between the global representation of an image given by the CLS token, a learnable token used by transformers for classification, and the local representation of individual patches. We select the regions with the highest similarity to obtain crops, which are forwarded through the same transformer encoder. Finally, high-level features of the original and cropped representations are further refined together in order to make more robust predictions. Through extensive experimental evaluation we demonstrate the effectiveness of our proposed method, obtaining favorable results in terms of accuracy across a variety of datasets. Furthermore, our method achieves these results at a much lower computational cost compared to the alternatives. Code and checkpoints are available at: \url{https://github.com/arkel23/GLSim}.
- Abstract(参考訳): 微粒化認識には下位のマクロカテゴリからのイメージの分類が含まれており、クラス間の差が小さいため困難である。
これを解決するために、ほとんどの方法は、特徴抽出バックボーンで可能とし、次いで高レベルな特徴改善ステップで識別的特徴選択を行う。
近年,視覚変換器を微細な認識のバックボーンとして活用する研究が盛んに行われているが,識別トークンの選択に注意機構を用いることは,計算に費用がかかる。
本研究では,画像中の識別領域を識別するための,新しい計算コストの指標を提案する。
CLSトークンによって与えられる画像のグローバルな表現、分類のために変換器が使用する学習可能なトークン、個々のパッチの局所的な表現の類似性を比較した。
我々は,同じ変圧器エンコーダによって転送される作物を得るために,最も類似性の高い地域を選択する。
最後に、より堅牢な予測を行うために、オリジナルおよびトリミングされた表現の高レベルな特徴をさらに洗練する。
提案手法の有効性を実験的に検証し,様々なデータセットにまたがる精度で良好な結果が得られることを示した。
さらに,提案手法は,提案手法よりも計算コストの低い結果が得られる。
コードとチェックポイントは: \url{https://github.com/arkel23/GLSim}.orgで入手できる。
関連論文リスト
- Breaking the Frame: Image Retrieval by Visual Overlap Prediction [53.17564423756082]
本稿では,隠蔽や複雑なシーンを効果的に扱う新しい視覚的位置認識手法,VOPを提案する。
提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion [2.3020018305241337]
PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。
イメージ内のタスク関連領域に対応するパッチを選択する。
論文 参考訳(メタデータ) (2024-01-23T20:28:06Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。
HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。
クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文 参考訳(メタデータ) (2022-12-30T10:54:29Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Efficient Video Transformers with Spatial-Temporal Token Selection [68.27784654734396]
入力ビデオサンプルに条件付き時間的・空間的両方のトークンを動的に選択するトークン選択フレームワークSTTSを提案する。
我々のフレームワークは、20%の計算を必要としながら、同様の結果を得る。
論文 参考訳(メタデータ) (2021-11-23T00:35:58Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z) - Re-rank Coarse Classification with Local Region Enhanced Features for
Fine-Grained Image Recognition [22.83821575990778]
そこで我々は,Top1の精度を向上させるため,TopN分類結果を局所的に拡張した埋め込み機能を用いて再評価した。
より効果的なセマンティクスグローバル機能を学ぶために、我々は、自動構築された階層的カテゴリ構造上のマルチレベル損失をデザインする。
本手法は,cub-200-2011,stanford cars,fgvc aircraftの3つのベンチマークで最新性能を実現する。
論文 参考訳(メタデータ) (2021-02-19T11:30:25Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。