Fugu-MT 論文翻訳(概要): EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention

論文の概要: EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention

arxiv url: http://arxiv.org/abs/2310.06629v2
Date: Sun, 22 Oct 2023 09:27:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 06:38:48.364269
Title: EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention
Title（参考訳）: EViT:バイフォア自己認識型イーグルビジョントランス
Authors: Yulong Shi, Mingwei Sun, Yongshuai Wang, Rui Wang, Hui Sun, Zengqiang Chen
Abstract要約: 視覚変換器は様々なコンピュータビジョンタスクにおいて競争性能を示した。ワシ眼におけるBFSA(Bi-Fovea Self-Attention)の生理的構造と特徴にインスパイアされた新規なBFSA(Bi-Fovea Self-Attention)が提案されている。本研究では,BFSAをベースとした Bionic Eagle Vision (BEV) ブロックを設計した。
参考スコア（独自算出の注目度）: 11.655231153093082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Thanks to the advancement of deep learning technology, vision transformer has demonstrated competitive performance in various computer vision tasks. Unfortunately, vision transformer still faces some challenges such as high computational complexity and absence of desirable inductive bias. To alleviate these problems, a novel Bi-Fovea Self-Attention (BFSA) is proposed, inspired by the physiological structure and characteristics of bi-fovea vision in eagle eyes. This BFSA can simulate the shallow fovea and deep fovea functions of eagle vision, enable the network to extract feature representations of targets from coarse to fine, facilitate the interaction of multi-scale feature representations. Additionally, a Bionic Eagle Vision (BEV) block based on BFSA is designed in this study. It combines the advantages of CNNs and Vision Transformers to enhance the ability of global and local feature representations of networks. Furthermore, a unified and efficient general pyramid backbone network family is developed by stacking the BEV blocks in this study, called Eagle Vision Transformers (EViTs). Experimental results on various computer vision tasks including image classification, object detection, instance segmentation and other transfer learning tasks show that the proposed EViTs perform effectively by comparing with the baselines under same model size and exhibit higher speed on graphics processing unit than other models. Code is available at https://github.com/nkusyl/EViT.
Abstract（参考訳）: 深層学習技術の進歩により、視覚トランスフォーマーは様々なコンピュータビジョンタスクにおいて競争性能を示した。残念ながら、視覚変換器は高い計算複雑性や望ましい帰納バイアスの欠如など、いくつかの課題に直面している。これらの問題を緩和するために、ワシ眼における両眼視の生理的構造と特徴に着想を得て、新しいBFSA(Bi-Fovea Self-Attention)を提案する。このbfsaは、eagle visionの浅いfovea関数と深いfovea関数をシミュレートし、ネットワークがターゲットの特徴表現を粗く細かいものから抽出し、マルチスケールの特徴表現の相互作用を容易にする。さらに,bfsaに基づくbionic eagle vision (bev)ブロックの設計を行った。 CNNとVision Transformerの利点を組み合わせて、ネットワークのグローバルな特徴表現とローカルな特徴表現の能力を強化する。さらに、この研究において、Eagle Vision Transformers (EViTs)と呼ばれるBEVブロックを積み重ねることで、統一的で効率的な汎用ピラミッドバックボーンネットワークファミリを開発する。画像分類,オブジェクト検出,インスタンスセグメンテーション,その他の移動学習タスクを含む様々なコンピュータビジョンタスクの実験結果から,提案したEViTは,同じモデルサイズでのベースラインと比較し,他のモデルよりも高速なグラフィックス処理を行うことを示す。コードはhttps://github.com/nkusyl/evitで入手できる。

関連論文リスト

DualGazeNet: A Biologically Inspired Dual-Gaze Query Network for Salient Object Detection [52.32976488996896]
我々はDualGazeNetを紹介した。DualGazeNetは、純粋なトランスフォーマーフレームワークで、有能なオブジェクト検出を行う。 5つのRGBベンチマークの実験によると、DualGazeNetは25の最先端CNNとTransformerベースのメソッドを一貫して上回っている。
論文参考訳（メタデータ） (2025-11-24T08:08:22Z)
Boosting Generative Adversarial Transferability with Self-supervised Vision Transformer Features [3.7165774213454847]
本稿では,自己教師型視覚変換器(ViT)の表現を活用すれば,対向トランスフォーマビリティが向上するかどうかを考察する。コントラスト学習(CL)によるグローバルな構造的特徴とマスク画像モデリング(MIM)による局所的なテクスチャ的特徴の両方を活用する。 CLおよびMIMは,ViTsを異なる特徴傾向に適応し,タンデムで利用した場合,高い対向的一般化性を示すことが示唆された。
論文参考訳（メタデータ） (2025-06-26T06:47:51Z)
Image Recognition with Online Lightweight Vision Transformer: A Survey [53.005965123414576]
本稿では、画像認識のための軽量な視覚変換器を作成するための様々なオンライン戦略について調査する。我々は、ImageNet-1Kベンチマークにおいて、各トピックに関する関連する探索を評価した。視覚変換器の軽量化における今後の研究の方向性と今後の課題を提案する。
論文参考訳（メタデータ） (2025-05-06T02:07:54Z)
BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文参考訳（メタデータ） (2025-03-04T08:35:01Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。構築した自己意識を近似するFibottention Architectureを提案する。
論文参考訳（メタデータ） (2024-06-27T17:59:40Z)
FViT: A Focal Vision Transformer with Gabor Filter [11.655231153093082]
視覚変換器とGaborフィルタの統合による潜在的な利点を再考する。畳み込みを用いた学習可能なガバーフィルタ(LGF)を提案する。我々はFocal Vision Transformers (FViTs) と呼ばれる統合的で効率的なピラミッドバックボーンネットワークファミリーを開発している。
論文参考訳（メタデータ） (2024-02-17T15:03:25Z)
DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion [25.092756016673235]
自己注意に基づく視覚変換器(ViT)はコンピュータビジョンにおいて高い競争力を持つアーキテクチャとして登場した。本稿では,DualToken-ViTと呼ばれる軽量かつ効率的な視覚変換器モデルを提案する。
論文参考訳（メタデータ） (2023-09-21T18:46:32Z)
A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。 FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文参考訳（メタデータ） (2022-12-23T19:13:43Z)
CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。 CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-05T17:59:28Z)
ViT-BEVSeg: A Hierarchical Transformer Network for Monocular Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2022-05-31T10:18:36Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。