論文の概要: S$^2$-MLPv2: Improved Spatial-Shift MLP Architecture for Vision
- arxiv url: http://arxiv.org/abs/2108.01072v1
- Date: Mon, 2 Aug 2021 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 16:54:42.742448
- Title: S$^2$-MLPv2: Improved Spatial-Shift MLP Architecture for Vision
- Title(参考訳): S$^2$-MLPv2:視覚のための空間シフト型MLPアーキテクチャの改善
- Authors: Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li
- Abstract要約: 帰納バイアスの少ないファウスベースの視覚アーキテクチャは、画像認識における競合性能を達成する。
本稿では、S$2$-MLPビジョンバックボーンを改善する。
われわれの中規模モデルであるS$2$-MLPv2-Mediumは、ImageNet-1Kベンチマークで8,3.6%の精度を達成している。
- 参考スコア(独自算出の注目度): 34.47616917228978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, MLP-based vision backbones emerge. MLP-based vision architectures
with less inductive bias achieve competitive performance in image recognition
compared with CNNs and vision Transformers. Among them, spatial-shift MLP
(S$^2$-MLP), adopting the straightforward spatial-shift operation, achieves
better performance than the pioneering works including MLP-mixer and ResMLP.
More recently, using smaller patches with a pyramid structure, Vision
Permutator (ViP) and Global Filter Network (GFNet) achieve better performance
than S$^2$-MLP.
In this paper, we improve the S$^2$-MLP vision backbone. We expand the
feature map along the channel dimension and split the expanded feature map into
several parts. We conduct different spatial-shift operations on split parts.
Meanwhile, we exploit the split-attention operation to fuse these split
parts. Moreover, like the counterparts, we adopt smaller-scale patches and use
a pyramid structure for boosting the image recognition accuracy. We term the
improved spatial-shift MLP vision backbone as S$^2$-MLPv2. Using 55M
parameters, our medium-scale model, S$^2$-MLPv2-Medium achieves an $83.6\%$
top-1 accuracy on the ImageNet-1K benchmark using $224\times 224$ images
without self-attention and external training data.
- Abstract(参考訳): 近年、MLPベースの視覚バックボーンが出現している。
帰納バイアスの少ないMLPベースの視覚アーキテクチャは、CNNや視覚変換器と比較して、画像認識における競合性能を実現する。
これらのうち、空間シフト型MLP(S$^2$-MLP)は、単純空間シフト型演算を採用し、MLP-mixerやResMLPといった先駆的な作業よりも優れた性能を実現する。
最近では、ピラミッド構造を持つ小さなパッチを使用して、ViP(Vision Permutator)とGFNet(Global Filter Network)は、S$^2$-MLPよりも優れたパフォーマンスを実現している。
本稿では、S$^2$-MLPビジョンバックボーンを改善する。
チャネル次元に沿ってフィーチャーマップを拡張し、拡張したフィーチャーマップをいくつかの部分に分割します。
分割部分に対して異なる空間シフト操作を行う。
一方,分割注意操作を利用して分割部分を融合する。
さらに,提案手法と同様に,小規模のパッチを適用し,ピラミッド構造を用いて画像認識精度を向上させる。
改良型空間シフト型MLP視覚バックボーンをS$^2$-MLPv2と呼ぶ。
55mパラメータを用いることで、中規模モデルであるs$^2$-mlpv2-mediumは、224\times 224$イメージを自己参照と外部トレーニングデータなしでimagenet-1kベンチマークで83.6\%のtop-1精度を達成しました。
関連論文リスト
- R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。