論文の概要: EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention
- arxiv url: http://arxiv.org/abs/2310.06629v4
- Date: Wed, 06 Nov 2024 13:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:20:52.632665
- Title: EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention
- Title(参考訳): EViT:バイフォア・セルフアテンションを備えたイーグル・ビジョン・トランス
- Authors: Yulong Shi, Mingwei Sun, Yongshuai Wang, Jiahao Ma, Zengqiang Chen,
- Abstract要約: 視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて印象的な性能を示した。
これらの問題を緩和するため、イーグルビジョンとViTの組み合わせによる潜在的な利点について検討した。
- 参考スコア(独自算出の注目度): 5.813760119694438
- License:
- Abstract: Owing to advancements in deep learning technology, Vision Transformers (ViTs) have demonstrated impressive performance in various computer vision tasks. Nonetheless, ViTs still face some challenges, such as high computational complexity and the absence of desirable inductive biases. To alleviate these issues, {the potential advantages of combining eagle vision with ViTs are explored. We summarize a Bi-Fovea Visual Interaction (BFVI) structure inspired by the unique physiological and visual characteristics of eagle eyes. A novel Bi-Fovea Self-Attention (BFSA) mechanism and Bi-Fovea Feedforward Network (BFFN) are proposed based on this structural design approach, which can be used to mimic the hierarchical and parallel information processing scheme of the biological visual cortex, enabling networks to learn feature representations of targets in a coarse-to-fine manner. Furthermore, a Bionic Eagle Vision (BEV) block is designed as the basic building unit based on the BFSA mechanism and BFFN. By stacking BEV blocks, a unified and efficient family of pyramid backbone networks called Eagle Vision Transformers (EViTs) is developed. Experimental results show that EViTs exhibit highly competitive performance in various computer vision tasks, such as image classification, object detection and semantic segmentation. Compared with other approaches, EViTs have significant advantages, especially in terms of performance and computational efficiency. Code is available at https://github.com/nkusyl/EViT
- Abstract(参考訳): ディープラーニング技術の進歩により、視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて印象的な性能を示した。
それでもViTは、高い計算複雑性や望ましい帰納バイアスの欠如など、いくつかの課題に直面している。
これらの問題を緩和するために、イーグルビジョンとViTを併用する潜在的な利点を探求する。
ワシ眼の生理的特徴と視覚的特徴に着想を得たBi-Fovea Visual Interaction (BFVI) 構造を要約した。
生体視覚野の階層的かつ並列的な情報処理方式を模倣するために, ネットワークがターゲットの特徴表現を粗い方法で学習できるようにするため, 新たなBFSA機構とBFFN(Bi-Fovea Feedforward Network)を提案する。
さらに、BFSA機構とBFFNに基づいて、基本的なビルディングユニットとしてBEVブロックが設計されている。
BEVブロックを積み重ねることで、Eagle Vision Transformers (EViTs) と呼ばれるピラミッドバックボーンネットワークの統一的で効率的なファミリが開発された。
実験の結果,EViTは画像分類,オブジェクト検出,セマンティックセグメンテーションなど,様々なコンピュータビジョンタスクにおいて高い競争性能を示すことがわかった。
他の手法と比較して、EViTは特に性能と計算効率の点で大きな利点がある。
コードはhttps://github.com/nkusyl/EViTで入手できる。
関連論文リスト
- Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。
その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。
構築した自己意識を近似するFibottention Architectureを提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - FViT: A Focal Vision Transformer with Gabor Filter [11.655231153093082]
視覚変換器とGaborフィルタの統合による潜在的な利点を再考する。
畳み込みを用いた学習可能なガバーフィルタ(LGF)を提案する。
我々はFocal Vision Transformers (FViTs) と呼ばれる統合的で効率的なピラミッドバックボーンネットワークファミリーを開発している。
論文 参考訳(メタデータ) (2024-02-17T15:03:25Z) - DualToken-ViT: Position-aware Efficient Vision Transformer with Dual
Token Fusion [25.092756016673235]
自己注意に基づく視覚変換器(ViT)はコンピュータビジョンにおいて高い競争力を持つアーキテクチャとして登場した。
本稿では,DualToken-ViTと呼ばれる軽量かつ効率的な視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2023-09-21T18:46:32Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。