論文の概要: MetaFormer is Actually What You Need for Vision
- arxiv url: http://arxiv.org/abs/2111.11418v1
- Date: Mon, 22 Nov 2021 18:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:15:57.191998
- Title: MetaFormer is Actually What You Need for Vision
- Title(参考訳): MetaFormerは、視覚に必要なのは何か
- Authors: Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang,
Jiashi Feng, Shuicheng Yan
- Abstract要約: 変換器のアテンションモジュールを、恥ずかしいほど単純な空間プーリング演算子に置き換える。
意外なことに、複数のコンピュータビジョンタスクにおいて、導出モデルが競合性能を達成することを観察する。
- 参考スコア(独自算出の注目度): 175.86264904607785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have shown great potential in computer vision tasks. A common
belief is their attention-based token mixer module contributes most to their
competence. However, recent works show the attention-based module in
transformers can be replaced by spatial MLPs and the resulted models still
perform quite well. Based on this observation, we hypothesize that the general
architecture of the transformers, instead of the specific token mixer module,
is more essential to the model's performance. To verify this, we deliberately
replace the attention module in transformers with an embarrassingly simple
spatial pooling operator to conduct only the most basic token mixing.
Surprisingly, we observe that the derived model, termed as PoolFormer, achieves
competitive performance on multiple computer vision tasks. For example, on
ImageNet-1K, PoolFormer achieves 82.1% top-1 accuracy, surpassing well-tuned
vision transformer/MLP-like baselines DeiT-B/ResMLP-B24 by 0.3%/1.1% accuracy
with 35%/52% fewer parameters and 48%/60% fewer MACs. The effectiveness of
PoolFormer verifies our hypothesis and urges us to initiate the concept of
"MetaFormer", a general architecture abstracted from transformers without
specifying the token mixer. Based on the extensive experiments, we argue that
MetaFormer is the key player in achieving superior results for recent
transformer and MLP-like models on vision tasks. This work calls for more
future research dedicated to improving MetaFormer instead of focusing on the
token mixer modules. Additionally, our proposed PoolFormer could serve as a
starting baseline for future MetaFormer architecture design. Code is available
at https://github.com/sail-sg/poolformer
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示している。
共通の信念は、注意に基づくトークンミキサーモジュールが、その能力に最も貢献しているということである。
しかし,近年の研究では,変圧器のアテンションに基づくモジュールを空間的MLPに置き換えることができ,その結果のモデルの性能は良好である。
この観察に基づいて、特定のトークンミキサモジュールではなく、トランスフォーマの一般的なアーキテクチャがモデルの性能にとってより不可欠であると仮定する。
これを検証するため,変圧器のアテンションモジュールを恥ずかしいほど単純な空間プーリング演算子に置き換え,最も基本的なトークン混合のみを行う。
驚いたことに、派生モデルであるPoolFormerは、複数のコンピュータビジョンタスクにおいて競合性能を達成する。
例えばImageNet-1Kでは、PoolFormerは82.1%のトップ-1の精度を達成し、よく調整された視覚変換器/MLPライクなベースラインであるDeiT-B/ResMLP-B24を0.3%/1.1%、パラメータが35%/52%、MACが48%/60%減った。
PoolFormerの有効性は私たちの仮説を検証し、トークンミキサーを指定せずにトランスフォーマーから抽象化された一般的なアーキテクチャである"MetaFormer"の概念を開始するよう促します。
広範な実験結果から,メタフォーマは視覚タスクにおける最近のトランスフォーマおよびmlpライクなモデルの優れた結果を得る上で重要な役割を担っていると考察する。
この作業は、トークンミキサーモジュールではなく、metaformerを改善することに特化した、より将来の研究を呼びかけている。
さらに、提案したPoolFormerは、将来のMetaFormerアーキテクチャ設計の出発点となるでしょう。
コードはhttps://github.com/sail-sg/poolformerで入手できる。
関連論文リスト
- Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - MetaFormer Baselines for Vision [173.16644649968393]
私たちはMetaFormerのベースラインモデルをいくつか導入し、最も基本的なミキサーや一般的なミキサーを使用します。
MetaFormerはパフォーマンスのしっかりとした低いバウンダリを保証します。
また,新たなアクティベーションであるStarReLUは,GELUと比較してFLOPを減少させるが,性能は向上する。
論文 参考訳(メタデータ) (2022-10-24T17:59:57Z) - Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN [38.87225202482656]
自己教師型事前学習手法であるマスク付き画像モデリングは、ビジョントランスフォーマーを用いた多くの下流視覚タスクで驚くべき成功を収めた。
本稿では,トランスフォーマーとCNNの両方に統一的に対応可能なアーキテクチャ非依存型マスケ画像モデリングフレームワーク (A$2$MIM) を提案する。
論文 参考訳(メタデータ) (2022-05-27T12:42:02Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Self-Supervised Learning with Swin Transformers [24.956637957269926]
ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチには基本的に新しい発明がなく、MoCo v2とBYOLを組み合わせている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
論文 参考訳(メタデータ) (2021-05-10T17:59:45Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。