論文の概要: EATFormer: Improving Vision Transformer Inspired by Evolutionary
Algorithm
- arxiv url: http://arxiv.org/abs/2206.09325v1
- Date: Sun, 19 Jun 2022 04:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:43:09.643629
- Title: EATFormer: Improving Vision Transformer Inspired by Evolutionary
Algorithm
- Title(参考訳): eatformer:進化的アルゴリズムに触発された視覚トランスフォーマーの改良
- Authors: Jiangning Zhang, Xiangtai Li, Yabiao Wang, Chengjie Wang, Yibo Yang,
Yong Liu, Dacheng Tao
- Abstract要約: 本稿では、実証された実用的な進化的アルゴリズム(EA)と類似した視覚変換器の合理性を説明する。
提案する emphEA ベースの Transformer (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模な実験は,我々のアプローチの有効性と優位性を実証している。
- 参考スコア(独自算出の注目度): 93.35244078922031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by biological evolution, this paper explains the rationality of
Vision Transformer by analogy with the proven practical Evolutionary Algorithm
(EA) and derives that both have consistent mathematical formulation. Then
inspired by effective EA variants, we propose a novel pyramid EATFormer
backbone that only contains the proposed \emph{EA-based Transformer} (EAT)
block, which consists of three residual parts, \ie, \emph{Multi-Scale Region
Aggregation} (MSRA), \emph{Global and Local Interaction} (GLI), and
\emph{Feed-Forward Network} (FFN) modules, to model multi-scale, interactive,
and individual information separately. Moreover, we design a \emph{Task-Related
Head} (TRH) docked with transformer backbone to complete final information
fusion more flexibly and \emph{improve} a \emph{Modulated Deformable MSA}
(MD-MSA) to dynamically model irregular locations. Massive quantitative and
quantitative experiments on image classification, downstream tasks, and
explanatory experiments demonstrate the effectiveness and superiority of our
approach over State-Of-The-Art (SOTA) methods. \Eg, our Mobile (1.8M), Tiny
(6.1M), Small (24.3M), and Base (49.0M) models achieve 69.4, 78.4, 83.1, and
83.9 Top-1 only trained on ImageNet-1K with naive training recipe;
EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and
41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T,
Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately
with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by
Upernet that exceeds Swin-T/S by 2.8/1.7. Code will be available at
\url{https://https://github.com/zhangzjn/EATFormer}.
- Abstract(参考訳): 本稿では, 生物進化に動機づけられ, 実用的進化アルゴリズム (ea) の類似性を用いて視覚トランスフォーマーの合理性を説明し, 両者が一貫した数学的定式化を持っていることを導出する。
次に, 効果的な ea 変種に触発されて, 提案する \emph{ea-based transformer} (eat) ブロックのみを含む新しいピラミッドイートフォーマーバックボーンを提案し, マルチスケール, インタラクティブ, 個別情報を個別にモデル化するために, \ie, \emph{multi-scale region aggregation} (msra), \emph{global and local interaction} (gli), \emph{feed-forward network} (ffn) モジュールの3つの残部からなる。
さらに, トランスバータバックボーンとドッキングした \emph{Task-Related Head} (TRH) と, 不規則な位置を動的にモデル化する \emph{improve} a \emph{Modulated Deformable MSA} (MD-MSA) を設計する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチがSOTA(State-Of-The-Art)法よりも優れていることを示す。
\Eg, our Mobile (1.8M), Tiny (6.1M), Small (24.3M), and Base (49.0M) models achieve 69.4, 78.4, 83.1, and 83.9 Top-1 only trained on ImageNet-1K with naive training recipe; EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by Upernet that exceeds Swin-T/S by 2.8/1.7.
コードは \url{https://https://github.com/zhangzjn/EATFormer} で入手できる。
関連論文リスト
- SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - EgoPoseFormer: A Simple Baseline for Stereo Egocentric 3D Human Pose Estimation [15.590340765703893]
ステレオ・エゴセントリックな人物ポーズ推定のためのトランスフォーマーモデルであるEgoPoseFormerを提案する。
本手法は,ヘッドマウントカメラの自己閉塞性や視野制限(FOV)による関節視認性を克服する主な課題を克服する。
本手法をステレオUnrealEgoデータセット上で評価し,従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2024-03-26T20:02:48Z) - Scale-Aware Modulation Meet Transformer [28.414901658729107]
本稿では、新しい視覚変換器、スケールアウェア変調変換器(SMT)を提案する。
SMTは、畳み込みネットワークと視覚変換器を組み合わせることで、様々な下流タスクを効率的に処理できる。
論文 参考訳(メタデータ) (2023-07-17T15:47:48Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。