論文の概要: EATFormer: Improving Vision Transformer Inspired by Evolutionary
Algorithm
- arxiv url: http://arxiv.org/abs/2206.09325v1
- Date: Sun, 19 Jun 2022 04:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:43:09.643629
- Title: EATFormer: Improving Vision Transformer Inspired by Evolutionary
Algorithm
- Title(参考訳): eatformer:進化的アルゴリズムに触発された視覚トランスフォーマーの改良
- Authors: Jiangning Zhang, Xiangtai Li, Yabiao Wang, Chengjie Wang, Yibo Yang,
Yong Liu, Dacheng Tao
- Abstract要約: 本稿では、実証された実用的な進化的アルゴリズム(EA)と類似した視覚変換器の合理性を説明する。
提案する emphEA ベースの Transformer (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模な実験は,我々のアプローチの有効性と優位性を実証している。
- 参考スコア(独自算出の注目度): 93.35244078922031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by biological evolution, this paper explains the rationality of
Vision Transformer by analogy with the proven practical Evolutionary Algorithm
(EA) and derives that both have consistent mathematical formulation. Then
inspired by effective EA variants, we propose a novel pyramid EATFormer
backbone that only contains the proposed \emph{EA-based Transformer} (EAT)
block, which consists of three residual parts, \ie, \emph{Multi-Scale Region
Aggregation} (MSRA), \emph{Global and Local Interaction} (GLI), and
\emph{Feed-Forward Network} (FFN) modules, to model multi-scale, interactive,
and individual information separately. Moreover, we design a \emph{Task-Related
Head} (TRH) docked with transformer backbone to complete final information
fusion more flexibly and \emph{improve} a \emph{Modulated Deformable MSA}
(MD-MSA) to dynamically model irregular locations. Massive quantitative and
quantitative experiments on image classification, downstream tasks, and
explanatory experiments demonstrate the effectiveness and superiority of our
approach over State-Of-The-Art (SOTA) methods. \Eg, our Mobile (1.8M), Tiny
(6.1M), Small (24.3M), and Base (49.0M) models achieve 69.4, 78.4, 83.1, and
83.9 Top-1 only trained on ImageNet-1K with naive training recipe;
EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and
41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T,
Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately
with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by
Upernet that exceeds Swin-T/S by 2.8/1.7. Code will be available at
\url{https://https://github.com/zhangzjn/EATFormer}.
- Abstract(参考訳): 本稿では, 生物進化に動機づけられ, 実用的進化アルゴリズム (ea) の類似性を用いて視覚トランスフォーマーの合理性を説明し, 両者が一貫した数学的定式化を持っていることを導出する。
次に, 効果的な ea 変種に触発されて, 提案する \emph{ea-based transformer} (eat) ブロックのみを含む新しいピラミッドイートフォーマーバックボーンを提案し, マルチスケール, インタラクティブ, 個別情報を個別にモデル化するために, \ie, \emph{multi-scale region aggregation} (msra), \emph{global and local interaction} (gli), \emph{feed-forward network} (ffn) モジュールの3つの残部からなる。
さらに, トランスバータバックボーンとドッキングした \emph{Task-Related Head} (TRH) と, 不規則な位置を動的にモデル化する \emph{improve} a \emph{Modulated Deformable MSA} (MD-MSA) を設計する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチがSOTA(State-Of-The-Art)法よりも優れていることを示す。
\Eg, our Mobile (1.8M), Tiny (6.1M), Small (24.3M), and Base (49.0M) models achieve 69.4, 78.4, 83.1, and 83.9 Top-1 only trained on ImageNet-1K with naive training recipe; EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by Upernet that exceeds Swin-T/S by 2.8/1.7.
コードは \url{https://https://github.com/zhangzjn/EATFormer} で入手できる。
関連論文リスト
- Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [92.38964762187477]
実験室レベルのリソースをトラッキングするために,より大きな視覚変換器(ViT)のパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、レイテンシー推論を追加することなく、モデルのパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々は,多層パーセプトロン(MLP)のみをベースとしたアンカーフリーヘッドを設計し,PETRを適応させる。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - Scale-Aware Modulation Meet Transformer [28.414901658729107]
本稿では、新しい視覚変換器、スケールアウェア変調変換器(SMT)を提案する。
SMTは、畳み込みネットワークと視覚変換器を組み合わせることで、様々な下流タスクを効率的に処理できる。
論文 参考訳(メタデータ) (2023-07-17T15:47:48Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Focal-UNet: UNet-like Focal Modulation for Medical Image Segmentation [8.75217589103206]
本稿では,新たに導入された焦点変調機構の助けを借りて,医用画像セグメンテーションのための新しいU字型アーキテクチャを提案する。
局所的および大域的特徴を集約する焦点モジュールの能力により、我々のモデルは変換器の広い受容場を同時に得ることができる。
論文 参考訳(メタデータ) (2022-12-19T06:17:22Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。