論文の概要: TransFG: A Transformer Architecture for Fine-grained Recognition
- arxiv url: http://arxiv.org/abs/2103.07976v2
- Date: Tue, 16 Mar 2021 13:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 11:16:26.908683
- Title: TransFG: A Transformer Architecture for Fine-grained Recognition
- Title(参考訳): TransFG: 微粒化認識のためのトランスフォーマーアーキテクチャ
- Authors: Ju He, Jieneng Chen, Shuai Liu, Adam Kortylewski, Cheng Yang, Yutong
Bai, Changhu Wang, Alan Yuille
- Abstract要約: 近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
- 参考スコア(独自算出の注目度): 27.76159820385425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained visual classification (FGVC) which aims at recognizing objects
from subcategories is a very challenging task due to the inherently subtle
inter-class differences. Recent works mainly tackle this problem by focusing on
how to locate the most discriminative image regions and rely on them to improve
the capability of networks to capture subtle variances. Most of these works
achieve this by re-using the backbone network to extract features of selected
regions. However, this strategy inevitably complicates the pipeline and pushes
the proposed regions to contain most parts of the objects. Recently, vision
transformer (ViT) shows its strong performance in the traditional
classification task. The self-attention mechanism of the transformer links
every patch token to the classification token. The strength of the attention
link can be intuitively considered as an indicator of the importance of tokens.
In this work, we propose a novel transformer-based framework TransFG where we
integrate all raw attention weights of the transformer into an attention map
for guiding the network to effectively and accurately select discriminative
image patches and compute their relations. A contrastive loss is applied to
further enlarge the distance between feature representations of similar
sub-classes. We demonstrate the value of TransFG by conducting experiments on
five popular fine-grained benchmarks: CUB-200-2011, Stanford Cars, Stanford
Dogs, NABirds and iNat2017 where we achieve state-of-the-art performance.
Qualitative results are presented for better understanding of our model.
- Abstract(参考訳): サブカテゴリからオブジェクトを認識することを目的とした細粒度視覚分類(FGVC)は、本質的に微妙なクラス間差のため非常に難しい課題である。
近年の研究では、最も差別的な画像領域の特定に焦点をあて、ネットワークの微妙なばらつきを捉える能力を改善するためにそれらに依存している。
これらの作業の多くは、バックボーンネットワークを再利用して、選択した領域の特徴を抽出することで実現している。
しかし、この戦略は必然的にパイプラインを複雑化し、提案された領域をオブジェクトの大部分を含むようプッシュする。
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
トランスの自己アテンション機構は、すべてのパッチトークンを分類トークンにリンクする。
注意リンクの強さはトークンの重要性の指標として直感的に考えることができる。
そこで本研究では,トランスフォーマーの全ての生の注意重みを注意マップに統合し,ネットワークを効果的かつ正確に識別可能な画像パッチを選定し,それらの関係を計算するトランスフォーマーベースのフレームワークであるtransfgを提案する。
対照的な損失は、類似するサブクラスの特徴表現間の距離をさらに拡大するために適用される。
我々は、cub-200-2011、stanford cars、stanford dogs、nabirds、inat2017の5つの人気のあるきめ細かいベンチマーク実験を行い、transfgの価値を実証した。
モデルの理解を深めるための定性的な結果が提示される。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Global-Local Similarity for Efficient Fine-Grained Image Recognition with Vision Transformers [5.825612611197359]
微粒な認識には、下位のマクロカテゴリからのイメージの分類が含まれる。
本稿では,画像中の識別領域を識別する新しい,計算コストの低い指標を提案する。
提案手法は,提案手法よりも計算コストの低い結果が得られる。
論文 参考訳(メタデータ) (2024-07-17T10:04:54Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - Context-aware Attentional Pooling (CAP) for Fine-grained Visual
Classification [2.963101656293054]
深層畳み込みニューラルネットワーク(CNN)は、画像認識のための識別対象ポーズと部品情報をマイニングする強力な能力を示しています。
サブピクセル勾配による微妙な変化を効果的にとらえる新しいコンテキスト認識型注意プーリング(CAP)を提案する。
我々は6つの最先端(SotA)バックボーンネットワークと8つのベンチマークデータセットを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2021-01-17T10:15:02Z) - Transformer Interpretability Beyond Attention Visualization [87.96102461221415]
自己保持技術、特にトランスフォーマーは、テキスト処理の分野を支配しています。
本研究では,トランスフォーマーネットワークの関連性を計算する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-17T18:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。