論文の概要: S$^2$-MLP: Spatial-Shift MLP Architecture for Vision
- arxiv url: http://arxiv.org/abs/2106.07477v1
- Date: Mon, 14 Jun 2021 15:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 21:39:41.310074
- Title: S$^2$-MLP: Spatial-Shift MLP Architecture for Vision
- Title(参考訳): S$^2$-MLP:視覚のための空間シフト型MLPアーキテクチャ
- Authors: Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li
- Abstract要約: 近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 34.47616917228978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, visual Transformer (ViT) and its following works abandon the
convolution and exploit the self-attention operation, attaining a comparable or
even higher accuracy than CNN. More recently, MLP-Mixer abandons both the
convolution and the self-attention operation, proposing an architecture
containing only MLP layers. To achieve cross-patch communications, it devises
an additional token-mixing MLP besides the channel-mixing MLP. It achieves
promising results when training on an extremely large-scale dataset. But it
cannot achieve as outstanding performance as its CNN and ViT counterparts when
training on medium-scale datasets such as ImageNet1K and ImageNet21K. The
performance drop of MLP-Mixer motivates us to rethink the token-mixing MLP. We
discover that token-mixing operation in MLP-Mixer is a variant of depthwise
convolution with a global reception field and spatial-specific configuration.
But the global reception field and the spatial-specific property make
token-mixing MLP prone to over-fitting. In this paper, we propose a novel pure
MLP architecture, spatial-shift MLP (S$^2$-MLP). Different from MLP-Mixer, our
S$^2$-MLP only contains channel-mixing MLP. We devise a spatial-shift operation
for achieving the communication between patches. It has a local reception field
and is spatial-agnostic. Meanwhile, it is parameter-free and efficient for
computation. The proposed S$^2$-MLP attains higher recognition accuracy than
MLP-Mixer when training on ImageNet-1K dataset. Meanwhile, S$^2$-MLP
accomplishes as excellent performance as ViT on ImageNet-1K dataset with
considerably simpler architecture and fewer FLOPs and parameters.
- Abstract(参考訳): 近年、visual transformer (vit) とその次の作品は畳み込みを放棄し、自己着脱操作を活用し、cnnと同等またはそれ以上の精度を達成する。
最近では、MLP-Mixerは畳み込みと自己注意操作の両方を捨て、MLP層のみを含むアーキテクチャを提案する。
クロスパッチ通信を実現するため、チャネルミキシング MLP に加えて、トークンミキシング MLP も考案した。
非常に大規模なデータセットでトレーニングすると、有望な結果が得られる。
しかし、ImageNet1KやImageNet21Kのような中規模のデータセットのトレーニングでは、CNNやViTほど優れたパフォーマンスを達成できない。
MLP-Mixerの性能低下は、トークンミキシングMLPを再考する動機となっている。
MLP-Mixerにおけるトークンミキシング操作は,大域的な受信フィールドと空間固有の構成を持つ深部的な畳み込みの変種であることがわかった。
しかし、グローバル受信フィールドと空間特性により、トークン混合MLPは過度に適合する傾向にある。
本稿では,空間シフト型MLP(S$^2$-MLP)を提案する。
MLP-Mixerとは異なり、S$^2$-MLP はチャネル混合 MLP のみを含む。
パッチ間の通信を実現するための空間シフト操作を考案する。
局所的な受信フィールドを持ち、空間に依存しない。
一方、パラメータフリーであり、計算に効率的である。
提案したS$^2$-MLPは、ImageNet-1Kデータセットのトレーニングにおいて、MLP-Mixerよりも高い認識精度を実現する。
一方、s$^2$-mlp は imagenet-1k データセットの vit と同等の性能を達成し、かなり単純なアーキテクチャとより少ないフラップとパラメータを持つ。
関連論文リスト
- MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。