論文の概要: EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm
- arxiv url: http://arxiv.org/abs/2206.09325v2
- Date: Fri, 19 Apr 2024 10:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:46:02.126391
- Title: EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm
- Title(参考訳): EATFormer:進化的アルゴリズムにヒントを得た視覚変換器の改良
- Authors: Jiangning Zhang, Xiangtai Li, Yabiao Wang, Chengjie Wang, Yibo Yang, Yong Liu, Dacheng Tao,
- Abstract要約: 本稿では、実証された実用的な進化的アルゴリズム(EA)と類似した視覚変換器の合理性を説明する。
提案する emphEA ベースの Transformer (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
- 参考スコア(独自算出の注目度): 111.17100512647619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by biological evolution, this paper explains the rationality of Vision Transformer by analogy with the proven practical Evolutionary Algorithm (EA) and derives that both have consistent mathematical formulation. Then inspired by effective EA variants, we propose a novel pyramid EATFormer backbone that only contains the proposed \emph{EA-based Transformer} (EAT) block, which consists of three residual parts, i.e., \emph{Multi-Scale Region Aggregation} (MSRA), \emph{Global and Local Interaction} (GLI), and \emph{Feed-Forward Network} (FFN) modules, to model multi-scale, interactive, and individual information separately. Moreover, we design a \emph{Task-Related Head} (TRH) docked with transformer backbone to complete final information fusion more flexibly and \emph{improve} a \emph{Modulated Deformable MSA} (MD-MSA) to dynamically model irregular locations. Massive quantitative and quantitative experiments on image classification, downstream tasks, and explanatory experiments demonstrate the effectiveness and superiority of our approach over State-Of-The-Art (SOTA) methods. \Eg, our Mobile (1.8M), Tiny (6.1M), Small (24.3M), and Base (49.0M) models achieve 69.4, 78.4, 83.1, and 83.9 Top-1 only trained on ImageNet-1K with naive training recipe; EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by Upernet that exceeds Swin-T/S by 2.8/1.7. Code is available at \url{https://github.com/zhangzjn/EATFormer}.
- Abstract(参考訳): 生物進化によって動機づけられた本論文は、実証された実用的な進化的アルゴリズム(EA)と類似して視覚変換器の合理性を説明し、両者が一貫した数学的定式化を持つことを導出する。
次に、有効なEA変異体にインスパイアされた新しいピラミッドEATFormerバックボーンを提案する。このブロックは、マルチスケール、インタラクティブ、個別の情報を個別にモデル化するために、3つの残留部分、すなわち \emph{Multi-Scale Region Aggregation} (MSRA)、 \emph{Global and Local Interaction} (GLI)、 \emph{Feed-Forward Network} (FFN) モジュールからなる。
さらに, トランスバータバックボーンとドッキングした \emph{Task-Related Head} (TRH) と, 不規則な位置を動的にモデル化する \emph{improve} a \emph{Modulated Deformable MSA} (MD-MSA) を設計する。
EATFormer-Tiny/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, compareding present MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1/0.9 mask AP with less FLs; EATFormer/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP and 41.4.9/44.2 mask AP with FLs, EATFormer-Tiny/Small/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP on COCOCOCO Detection, compared, compareding contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP with 0.4/1/0 mask AP with less FLs.
コードは \url{https://github.com/zhangzjn/EATFormer} で入手できる。
- SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - EgoPoseFormer: A Simple Baseline for Stereo Egocentric 3D Human Pose Estimation [15.590340765703893]
論文 参考訳(メタデータ) (2024-03-26T20:02:48Z) - Scale-Aware Modulation Meet Transformer [28.414901658729107]
論文 参考訳(メタデータ) (2023-07-17T15:47:48Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)