論文の概要: A free lunch from ViT: Adaptive Attention Multi-scale Fusion Transformer
for Fine-grained Visual Recognition
- arxiv url: http://arxiv.org/abs/2110.01240v1
- Date: Mon, 4 Oct 2021 08:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:17:22.839183
- Title: A free lunch from ViT: Adaptive Attention Multi-scale Fusion Transformer
for Fine-grained Visual Recognition
- Title(参考訳): ViTからの無料ランチ:微粒な視覚認識のための適応注意型マルチスケールフュージョントランス
- Authors: Yuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng
Ling, Weiqian Chen
- Abstract要約: 物体の部分に関する微妙な表現を学習することは、きめ細かい視覚認識(FGVR)分野において重要な役割を担っている。
ViTのパッチサイズの固定化により、ディープレイヤのクラストークンは、グローバルな受容フィールドに焦点を当て、FGVRのマルチグラニュラリティ機能を生成することができない。
本稿では,適応型マルチスケールフュージョントランス (AFTrans) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.045205311757028
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning subtle representation about object parts plays a vital role in
fine-grained visual recognition (FGVR) field. The vision transformer (ViT)
achieves promising results on computer vision due to its attention mechanism.
Nonetheless, with the fixed size of patches in ViT, the class token in deep
layer focuses on the global receptive field and cannot generate
multi-granularity features for FGVR. To capture region attention without box
annotations and compensate for ViT shortcomings in FGVR, we propose a novel
method named Adaptive attention multi-scale Fusion Transformer (AFTrans). The
Selective Attention Collection Module (SACM) in our approach leverages
attention weights in ViT and filters them adaptively to corre-spond with the
relative importance of input patches. The multiple scales (global and local)
pipeline is supervised by our weights sharing encoder and can be easily trained
end-to-end. Comprehensive experiments demonstrate that AFTrans can achieve SOTA
performance on three published fine-grained benchmarks: CUB-200-2011, Stanford
Dogs and iNat2017.
- Abstract(参考訳): オブジェクト部分の微妙な表現を学ぶことは、きめ細かい視覚認識(fgvr)の分野で重要な役割を果たす。
視覚トランスフォーマー(vit)は、その注意機構により、コンピュータビジョンの有望な結果を達成する。
それでも、vitのパッチのサイズが固定されているため、ディープレイヤのクラストークンはグローバルレセプティブフィールドにフォーカスしており、fgvrのマルチグラニュリティー機能は生成できない。
ボックスアノテーションを使わずに領域の注意を捉え、FGVRのViT欠点を補うために、Adaptive attention multi-scale Fusion Transformer (AFTrans) という新しい手法を提案する。
提案手法におけるSelective Attention Collection Module (SACM) は,ViTの注意重みを利用して,入力パッチの相対的重要性に適応的に相関する。
マルチスケール(グローバルおよびローカル)パイプラインは、重み共有エンコーダによって監視され、エンドツーエンドで簡単にトレーニングすることができます。
総合的な実験により、AFTransは、CUB-200-2011、Stanford Dogs、iNat2017の3つの詳細なベンチマークでSOTA性能を達成できることが示された。
関連論文リスト
- DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - OmniNet: Omnidirectional Representations from Transformers [49.23834374054286]
本稿ではトランスフォーマー(OmniNet)からのOmnidirect Representationsを提案する。
OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。
自動回帰言語モデリング、機械翻訳、長距離アリーナ(LRA)、画像認識に関する実験が行われている。
論文 参考訳(メタデータ) (2021-03-01T15:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。