論文の概要: AS-MLP: An Axial Shifted MLP Architecture for Vision
- arxiv url: http://arxiv.org/abs/2107.08391v1
- Date: Sun, 18 Jul 2021 08:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:00:27.429316
- Title: AS-MLP: An Axial Shifted MLP Architecture for Vision
- Title(参考訳): AS-MLP: ビジョンのための軸シフト型MLPアーキテクチャ
- Authors: Dongze Lian, Zehao Yu, Xing Sun, Shenghua Gao
- Abstract要約: 本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
- 参考スコア(独自算出の注目度): 50.11765148947432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An Axial Shifted MLP architecture (AS-MLP) is proposed in this paper.
Different from MLP-Mixer, where the global spatial feature is encoded for the
information flow through matrix transposition and one token-mixing MLP, we pay
more attention to the local features communication. By axially shifting
channels of the feature map, AS-MLP is able to obtain the information flow from
different axial directions, which captures the local dependencies. Such an
operation enables us to utilize a pure MLP architecture to achieve the same
local receptive field as CNN-like architecture. We can also design the
receptive field size and dilation of blocks of AS-MLP, etc, just like designing
those of convolution kernels. With the proposed AS-MLP architecture, our model
obtains 83.3% Top-1 accuracy with 88M parameters and 15.2 GFLOPs on the
ImageNet-1K dataset. Such a simple yet effective architecture outperforms all
MLP-based architectures and achieves competitive performance compared to the
transformer-based architectures (e.g., Swin Transformer) even with slightly
lower FLOPs. In addition, AS-MLP is also the first MLP-based architecture to be
applied to the downstream tasks (e.g., object detection and semantic
segmentation). The experimental results are also impressive. Our proposed
AS-MLP obtains 51.5 mAP on the COCO validation set and 49.5 MS mIoU on the
ADE20K dataset, which is competitive compared to the transformer-based
architectures. Code is available at https://github.com/svip-lab/AS-MLP.
- Abstract(参考訳): 本稿では,Axial Shifted MLPアーキテクチャ(AS-MLP)を提案する。
MLP-Mixerとは違い,グローバルな空間的特徴が行列変換と1つのトークンミキシングによる情報フローに符号化されているため,局所的な特徴通信に注意が払われる。
特徴写像のチャネルを軸方向にシフトすることで、AS-MLPは異なる軸方向から情報の流れを得ることができ、局所的な依存関係を捉えることができる。
このような操作により、純粋なMLPアーキテクチャを使用して、CNN的なアーキテクチャと同じ局所受容場を実現することができる。
また、畳み込みカーネルの設計と同じように、AS-MLPなどのブロックの受容的フィールドサイズや拡張を設計することもできる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
このような単純で効果的なアーキテクチャは全てのMLPベースのアーキテクチャより優れており、少し低いFLOPでもトランスフォーマーベースのアーキテクチャ(Swin Transformerなど)と比較して競争性能が優れている。
さらに、AS-MLPは下流タスク(オブジェクト検出やセマンティックセグメンテーションなど)に適用される最初のMLPベースのアーキテクチャである。
実験結果も印象的だ。
提案したAS-MLPは,COCO検証セットで51.5 mAP,ADE20Kデータセットで49.5 MS mIoUを得る。
コードはhttps://github.com/svip-lab/AS-MLP.comで入手できる。
関連論文リスト
- MDMLP: Image Classification from Scratch on Small Datasets with MLP [7.672827879118106]
近年,アテンション機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。
近年,マルチ層パーセプトロン(MLP)をベースとしたMixerなどのアーキテクチャも,CNNやアテンション技術と比較して強力である。
論文 参考訳(メタデータ) (2022-05-28T16:26:59Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。