論文の概要: Feature Fusion Vision Transformer for Fine-Grained Visual Categorization
- arxiv url: http://arxiv.org/abs/2107.02341v2
- Date: Wed, 7 Jul 2021 08:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 10:48:12.461012
- Title: Feature Fusion Vision Transformer for Fine-Grained Visual Categorization
- Title(参考訳): 細粒度視覚分類のためのフィーチャーフュージョンビジョントランスフォーマ
- Authors: Jun Wang, Xiaohan Yu and Yongsheng Gao
- Abstract要約: 我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
- 参考スコア(独自算出の注目度): 22.91753200323264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core for tackling the fine-grained visual categorization (FGVC) is to
learn subtle yet discriminative features. Most previous works achieve this by
explicitly selecting the discriminative parts or integrating the attention
mechanism via CNN-based approaches.However, these methods enhance the
computational complexity and make the modeldominated by the regions containing
the most of the objects. Recently, vision trans-former (ViT) has achieved SOTA
performance on general image recognition tasks. Theself-attention mechanism
aggregates and weights the information from all patches to the classification
token, making it perfectly suitable for FGVC. Nonetheless, the classifi-cation
token in the deep layer pays more attention to the global information, lacking
the local and low-level features that are essential for FGVC. In this work, we
proposea novel pure transformer-based framework Feature Fusion Vision
Transformer (FFVT)where we aggregate the important tokens from each transformer
layer to compensate thelocal, low-level and middle-level information. We design
a novel token selection mod-ule called mutual attention weight selection (MAWS)
to guide the network effectively and efficiently towards selecting
discriminative tokens without introducing extra param-eters. We verify the
effectiveness of FFVT on three benchmarks where FFVT achieves the
state-of-the-art performance.
- Abstract(参考訳): きめ細かい視覚分類(FGVC)に取り組む上でのコアは、微妙で差別的な特徴を学習することである。
従来のほとんどの研究は、識別的部分を明示的に選択したり、CNNベースのアプローチで注意機構を統合することでこれを達成しているが、これらの手法は計算の複雑さを高め、ほとんどのオブジェクトを含む領域でモデルが支配されるようにする。
近年,視覚トランスフォーマー(ViT)は一般的な画像認識タスクにおいてSOTA性能を実現している。
自己認識機構は、すべてのパッチから分類トークンに情報を集約し、重み付けし、FGVCに完全に適合する。
それでも、深層層にあるclassifi-cationトークンは、fgvcに不可欠なローカルおよび低レベルの機能を欠いたグローバル情報にさらに注意を払っている。
本研究では,各トランス層から重要なトークンを集約し,局所情報,低レベル情報,中レベル情報を補償する,純粋変換器ベースのフレームワークであるFeature Fusion Vision Transformer (FFVT)を提案する。
本稿では,ネットワークを効果的かつ効率的に誘導し,余分なパラムエターを導入することなく識別トークンを選択するための,相互注意重み選択(maws)と呼ばれる新しいトークン選択モジュールを設計する。
FFVTが最先端性能を達成する3つのベンチマークにおけるFFVTの有効性を検証する。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Hybrid Focal and Full-Range Attention Based Graph Transformers [0.0]
本稿では,Focal と Full-Range Graph Transformer (FFGT) という,純粋に注目に基づくアーキテクチャを提案する。
FFGTは、従来のフルレンジアテンションとエゴネットへのKホップアテンションを組み合わせることで、グローバル情報とローカル情報の両方を集約する。
提案手法は,各種オープンデータセット上での既存のグラフ変換器の性能を向上させる。
論文 参考訳(メタデータ) (2023-11-08T12:53:07Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - A free lunch from ViT: Adaptive Attention Multi-scale Fusion Transformer
for Fine-grained Visual Recognition [10.045205311757028]
物体の部分に関する微妙な表現を学習することは、きめ細かい視覚認識(FGVR)分野において重要な役割を担っている。
ViTのパッチサイズの固定化により、ディープレイヤのクラストークンは、グローバルな受容フィールドに焦点を当て、FGVRのマルチグラニュラリティ機能を生成することができない。
本稿では,適応型マルチスケールフュージョントランス (AFTrans) という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-04T08:11:21Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。