論文の概要: EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm
- arxiv url: http://arxiv.org/abs/2206.09325v3
- Date: Sun, 11 Aug 2024 14:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:37:20.437030
- Title: EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm
- Title(参考訳): EATFormer:進化的アルゴリズムにヒントを得た視覚変換器の改良
- Authors: Jiangning Zhang, Xiangtai Li, Yabiao Wang, Chengjie Wang, Yibo Yang, Yong Liu, Dacheng Tao,
- Abstract要約: 本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
- 参考スコア(独自算出の注目度): 111.17100512647619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by biological evolution, this paper explains the rationality of Vision Transformer by analogy with the proven practical evolutionary algorithm (EA) and derives that both have consistent mathematical formulation. Then inspired by effective EA variants, we propose a novel pyramid EATFormer backbone that only contains the proposed EA-based transformer (EAT) block, which consists of three residual parts, i.e., Multi-scale region aggregation, global and local interaction, and feed-forward network modules, to model multi-scale, interactive, and individual information separately. Moreover, we design a task-related head docked with transformer backbone to complete final information fusion more flexibly and improve a modulated deformable MSA to dynamically model irregular locations. Massive quantitative and quantitative experiments on image classification, downstream tasks, and explanatory experiments demonstrate the effectiveness and superiority of our approach over state-of-the-art methods. E.g., our Mobile (1.8 M), Tiny (6.1 M), Small (24.3 M), and Base (49.0 M) models achieve 69.4, 78.4, 83.1, and 83.9 Top-1 only trained on ImageNet-1K with naive training recipe; EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by Upernet that exceeds Swin-T/S by 2.8/1.7. Code is available at https://github.com/zhangzjn/EATFormer.
- Abstract(参考訳): 生物進化によって動機づけられた本論文は、実証された実用的な進化アルゴリズム(EA)と類似して視覚変換器の合理性を説明し、両者が一貫した数学的定式化を持つことを導出する。
提案するEAベースのトランスフォーマー(EAT)ブロックは,マルチスケール領域集約,グローバルおよびローカルインタラクション,フィードフォワードネットワークモジュールの3つの部分から構成される。
さらに,コンバータバックボーンを組み込んだタスク関連ヘッドを設計し,より柔軟に最終情報融合を完了し,不規則な位置を動的にモデル化する変形可能なMSAを改良する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,最先端手法に対する我々のアプローチの有効性と優位性を実証している。
EATFormer-Tiny/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, compareding contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1/0.9 mask AP with less FLs, EATFormer/Small/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP and 41.4/9/44.2 mask AP with less FLs, EATFormer/Small/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP on COCOCOCO detection, compared, compareding current MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP with 0.4.1/0 mask AP with less FLs FLs, EATFormer/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/Small/ 0 box AP by 2.8
コードはhttps://github.com/zhangzjn/EATFormer.comで入手できる。
関連論文リスト
- SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - EgoPoseFormer: A Simple Baseline for Stereo Egocentric 3D Human Pose Estimation [15.590340765703893]
ステレオ・エゴセントリックな人物ポーズ推定のためのトランスフォーマーモデルであるEgoPoseFormerを提案する。
本手法は,ヘッドマウントカメラの自己閉塞性や視野制限(FOV)による関節視認性を克服する主な課題を克服する。
本手法をステレオUnrealEgoデータセット上で評価し,従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2024-03-26T20:02:48Z) - Scale-Aware Modulation Meet Transformer [28.414901658729107]
本稿では、新しい視覚変換器、スケールアウェア変調変換器(SMT)を提案する。
SMTは、畳み込みネットワークと視覚変換器を組み合わせることで、様々な下流タスクを効率的に処理できる。
論文 参考訳(メタデータ) (2023-07-17T15:47:48Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。