論文の概要: FViT: A Focal Vision Transformer with Gabor Filter
- arxiv url: http://arxiv.org/abs/2402.11303v3
- Date: Tue, 21 Jan 2025 14:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:46.995802
- Title: FViT: A Focal Vision Transformer with Gabor Filter
- Title(参考訳): FViT:Gaborフィルタ付きフォカルビジョン変換器
- Authors: Yulong Shi, Mingwei Sun, Yongshuai Wang, Zengqiang Chen,
- Abstract要約: 視覚変換器とガボルフィルタを組み合わせる利点について論じる。
畳み込みを用いた学習可能なGaborフィルタ(LGF)を提案する。
バイオニックフォカルビジョン(BFV)ブロックはLGFに基づいて設計されている。
Focal Vision Transformers (FViTs) と呼ばれるピラミッドバックボーンネットワークの統一的で効率的なファミリーを開発した。
- 参考スコア(独自算出の注目度): 6.237269022600682
- License:
- Abstract: Vision transformers have achieved encouraging progress in various computer vision tasks. A common belief is that this is attributed to the capability of self-attention in modeling the global dependencies among feature tokens. However, self-attention still faces several challenges in dense prediction tasks, including high computational complexity and absence of desirable inductive bias. To alleviate these issues, the potential advantages of combining vision transformers with Gabor filters are revisited, and a learnable Gabor filter (LGF) using convolution is proposed. The LGF does not rely on self-attention, and it is used to simulate the response of fundamental cells in the biological visual system to the input images. This encourages vision transformers to focus on discriminative feature representations of targets across different scales and orientations. In addition, a Bionic Focal Vision (BFV) block is designed based on the LGF. This block draws inspiration from neuroscience and introduces a Dual-Path Feed Forward Network (DPFFN) to emulate the parallel and cascaded information processing scheme of the biological visual cortex. Furthermore, a unified and efficient family of pyramid backbone networks called Focal Vision Transformers (FViTs) is developed by stacking BFV blocks. Experimental results indicate that FViTs demonstrate superior performance in various vision tasks. In terms of computational efficiency and scalability, FViTs show significant advantages compared with other counterparts.
- Abstract(参考訳): ビジョントランスフォーマーは様々なコンピュータビジョンタスクにおいて促進的な進歩を遂げた。
これは、機能トークン間のグローバルな依存関係をモデリングする際の自己注意の能力に起因している、というのが一般的な考えである。
しかし、自己注意は、高い計算複雑性や望ましい帰納バイアスの欠如など、高密度な予測タスクにおいていくつかの課題に直面している。
これらの問題を緩和するために、視覚変換器とGaborフィルタを組み合わせることの潜在的な利点が再検討され、畳み込みを用いた学習可能なGaborフィルタ(LGF)が提案される。
LGFは自己注意に頼らず、生体視覚系の基本細胞の入力画像への応答をシミュレートするために用いられる。
これにより、視覚変換器は、異なるスケールと向きをまたいだターゲットの識別的特徴表現に焦点を合わせることができる。
さらに、LGFをベースとした Bionic Focal Vision (BFV) ブロックが設計されている。
このブロックは神経科学からインスピレーションを受け、生物学的視覚野の並行およびカスケード情報処理スキームをエミュレートするDual-Path Feed Forward Network (DPFFN)を導入している。
さらに、BFVブロックを積み重ねることで、Focal Vision Transformers (FViTs) と呼ばれるピラミッドバックボーンネットワークの統一的で効率的なファミリーを開発する。
実験結果から,FViTは様々な視覚タスクにおいて優れた性能を示した。
計算効率とスケーラビリティの面では、FViTは他のものに比べて大きなアドバンテージを示している。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention [5.813760119694438]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて印象的な性能を示した。
これらの問題を緩和するため、イーグルビジョンとViTの組み合わせによる潜在的な利点について検討した。
論文 参考訳(メタデータ) (2023-10-10T13:48:18Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。