論文の概要: FViT: A Focal Vision Transformer with Gabor Filter
- arxiv url: http://arxiv.org/abs/2402.11303v2
- Date: Tue, 27 Feb 2024 02:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:59:40.796416
- Title: FViT: A Focal Vision Transformer with Gabor Filter
- Title(参考訳): FViT:Gaborフィルタを用いた音声ビジョン変換器
- Authors: Yulong Shi, Mingwei Sun, Yongshuai Wang, Rui Wang, Hui Sun, Zengqiang
Chen
- Abstract要約: 視覚変換器とGaborフィルタの統合による潜在的な利点を再考する。
畳み込みを用いた学習可能なガバーフィルタ(LGF)を提案する。
我々はFocal Vision Transformers (FViTs) と呼ばれる統合的で効率的なピラミッドバックボーンネットワークファミリーを開発している。
- 参考スコア(独自算出の注目度): 11.655231153093082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have achieved encouraging progress in various computer
vision tasks. A common belief is that this is attributed to the competence of
self-attention in modeling the global dependencies among feature tokens.
Unfortunately, self-attention still faces some challenges in dense prediction
tasks, such as the high computational complexity and absence of desirable
inductive bias. To address these issues, we revisit the potential benefits of
integrating vision transformer with Gabor filter, and propose a Learnable Gabor
Filter (LGF) by using convolution. As an alternative to self-attention, we
employ LGF to simulate the response of simple cells in the biological visual
system to input images, prompting models to focus on discriminative feature
representations of targets from various scales and orientations. Additionally,
we design a Bionic Focal Vision (BFV) block based on the LGF. This block draws
inspiration from neuroscience and introduces a Multi-Path Feed Forward Network
(MPFFN) to emulate the working way of biological visual cortex processing
information in parallel. Furthermore, we develop a unified and efficient
pyramid backbone network family called Focal Vision Transformers (FViTs) by
stacking BFV blocks. Experimental results show that FViTs exhibit highly
competitive performance in various vision tasks. Especially in terms of
computational efficiency and scalability, FViTs show significant advantages
compared with other counterparts. Code is available at
https://github.com/nkusyl/FViT
- Abstract(参考訳): ビジョントランスフォーマーは、様々なコンピュータビジョンタスクの進歩を奨励している。
これは、機能トークン間のグローバルな依存関係のモデリングにおける自己注意の能力に起因している、というのが一般的な考えである。
残念ながら、自己注意は、高い計算複雑性や望ましい帰納バイアスの欠如など、高密度な予測タスクにおけるいくつかの課題に直面している。
これらの問題に対処するために,視覚変換器とGaborフィルタの統合による潜在的な利点を再検討し,畳み込みを用いた学習可能なGaborフィルタ(LGF)を提案する。
自己注意の代替として,生体視覚系の単純細胞のイメージ入力に対する応答をシミュレートするためにLGFを用い,様々なスケールや方向からターゲットの識別的特徴表現に焦点を合わせるようモデルに促した。
さらに,LGF に基づいた Bionic Focal Vision (BFV) ブロックを設計する。
このブロックは神経科学からインスピレーションを受け、生物学的視覚野処理情報の動作方法を並列にエミュレートするMulti-Path Feed Forward Network (MPFFN)を導入している。
さらに、BFVブロックを積み重ねることにより、Focal Vision Transformers (FViT) と呼ばれる統合的で効率的なピラミッドバックボーンネットワークファミリーを開発する。
FViTは様々な視覚タスクにおいて高い競争性能を示す。
特に計算効率とスケーラビリティの面では、FViTは他と比較して大きな優位性を示している。
コードはhttps://github.com/nkusyl/FViTで入手できる。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention [5.813760119694438]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて印象的な性能を示した。
これらの問題を緩和するため、イーグルビジョンとViTの組み合わせによる潜在的な利点について検討した。
論文 参考訳(メタデータ) (2023-10-10T13:48:18Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。