論文の概要: EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention
- arxiv url: http://arxiv.org/abs/2310.06629v1
- Date: Tue, 10 Oct 2023 13:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:17:29.631465
- Title: EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention
- Title(参考訳): EViT:バイフォア自己認識型イーグルビジョントランス
- Authors: Yulong Shi, Mingwei Sun, Yongshuai Wang, Rui Wang, Hui Sun, Zengqiang
Chen
- Abstract要約: 視覚変換器は様々なコンピュータビジョンタスクにおいて競争性能を示した。
本研究は, ワシ眼におけるBFSA(Bi-fovea Self-Attention)の生理的構造と特徴に着想を得た新規なBFSAを提案する。
イーグルビジョンの浅葉と深葉の機能をシミュレートすることができ、ネットワークはターゲットの特徴表現を粗いものから細かいものへと抽出することができる。
- 参考スコア(独自算出の注目度): 11.655231153093082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Because of the advancement of deep learning technology, vision transformer
has demonstrated competitive performance in various computer vision tasks.
Unfortunately, vision transformer still faces some challenges such as high
computational complexity and absence of desirable inductive bias. To alleviate
these problems, this study proposes a novel Bi-Fovea Self-Attention (BFSA)
inspired by the physiological structure and characteristics of bi-fovea vision
in eagle eyes. This BFSA can simulate the shallow fovea and deep fovea
functions of eagle vision, enabling the network to extract feature
representations of targets from coarse to fine, facilitating the interaction of
multi-scale feature representations. Additionally, this study designs a Bionic
Eagle Vision (BEV) block based on BFSA and CNN. It combines CNN and Vision
Transformer, to enhance the network's local and global representation ability
for targets. Furthermore, this study develops a unified and efficient general
pyramid backbone network family, named Eagle Vision Transformers (EViTs) by
stacking the BEV blocks. Experimental results on various computer vision tasks
including image classification, object detection, instance segmentation and
other transfer learning tasks show that the proposed EViTs perform
significantly better than the baselines under similar model sizes, which
exhibits faster speed on graphics processing unit compared to other models.
Code will be released at https://github.com/nkusyl.
- Abstract(参考訳): 深層学習技術の進歩により、視覚変換器は様々なコンピュータビジョンタスクにおいて競争性能を示した。
残念ながら、視覚変換器は高い計算複雑性や望ましい帰納バイアスの欠如など、いくつかの課題に直面している。
これらの問題を緩和するために, ワシ眼における両眼視の生理的構造と特徴に触発された新しいBFSA(Bi-Fovea Self-Attention)を提案する。
このbfsaはeagle visionの浅いfovea関数と深いfovea関数をシミュレートし、ネットワークが粗いものから細かいものまでの特徴表現を抽出し、マルチスケールな特徴表現の相互作用を容易にする。
さらに本研究は,bfsaとcnnに基づくビオニオンイーグルビジョン(bev)ブロックの設計を行った。
CNNとVision Transformerを組み合わせて、ターゲットに対するネットワークのローカルおよびグローバルな表現能力を向上する。
さらに,BEVブロックを積み重ねることで,Eagle Vision Transformers (EViTs) と呼ばれる,統一的で効率的な汎用ピラミッドバックボーンネットワークファミリーを開発する。
画像分類,オブジェクト検出,インスタンスセグメンテーション,その他の移動学習タスクを含む様々なコンピュータビジョンタスクの実験結果から,提案したEViTは,類似のモデルサイズでのベースラインよりも大幅に性能が向上し,他のモデルと比較してグラフィックス処理ユニットの高速化が図られた。
コードはhttps://github.com/nkusylでリリースされる。
関連論文リスト
- FViT: A Focal Vision Transformer with Gabor Filter [11.655231153093082]
視覚変換器とGaborフィルタの統合による潜在的な利点を再考する。
畳み込みを用いた学習可能なガバーフィルタ(LGF)を提案する。
我々はFocal Vision Transformers (FViTs) と呼ばれる統合的で効率的なピラミッドバックボーンネットワークファミリーを開発している。
論文 参考訳(メタデータ) (2024-02-17T15:03:25Z) - Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。