論文の概要: Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs
- arxiv url: http://arxiv.org/abs/2202.06510v1
- Date: Mon, 14 Feb 2022 06:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:21:56.462841
- Title: Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs
- Title(参考訳): 混在とシフト:ビジョンMLPにおけるグローバルおよびローカル依存の爆発
- Authors: Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou
- Abstract要約: Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
- 参考スコア(独自算出の注目度): 84.3235981545673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token-mixing multi-layer perceptron (MLP) models have shown competitive
performance in computer vision tasks with a simple architecture and relatively
small computational cost. Their success in maintaining computation efficiency
is mainly attributed to avoiding the use of self-attention that is often
computationally heavy, yet this is at the expense of not being able to mix
tokens both globally and locally. In this paper, to exploit both global and
local dependencies without self-attention, we present Mix-Shift-MLP (MS-MLP)
which makes the size of the local receptive field used for mixing increase with
respect to the amount of spatial shifting. In addition to conventional mixing
and shifting techniques, MS-MLP mixes both neighboring and distant tokens from
fine- to coarse-grained levels and then gathers them via a shifting operation.
This directly contributes to the interactions between global and local tokens.
Being simple to implement, MS-MLP achieves competitive performance in multiple
vision benchmarks. For example, an MS-MLP with 85 million parameters achieves
83.8% top-1 classification accuracy on ImageNet-1K. Moreover, by combining
MS-MLP with state-of-the-art Vision Transformers such as the Swin Transformer,
we show MS-MLP achieves further improvements on three different model scales,
e.g., by 0.5% on ImageNet-1K classification with Swin-B. The code is available
at: https://github.com/JegZheng/MS-MLP.
- Abstract(参考訳): トークン混合マルチレイヤー・パーセプトロン(mlp)モデルは、単純なアーキテクチャと比較的少ない計算コストでコンピュータビジョンタスクにおける競合性能を示している。
彼らの計算効率の維持の成功は主に、しばしば計算的に重い自己注意の使用を避けることによるものであるが、これは、世界中とローカルの両方でトークンを混ぜることができないことによるものである。
本稿では,自己着脱を伴わない大域的・局所的な依存関係を活用すべく,空間的シフト量に対して局所的受容場の大きさを混合するmix-shift-mlp(ms-mlp)を提案する。
従来の混合およびシフト技術に加えて、MS-MLPは隣接するトークンと遠く離れたトークンを微粒度から粗粒度まで混合し、シフト操作によってそれらを収集する。
これはグローバルトークンとローカルトークンの相互作用に直接寄与する。
実装が簡単であるため、MS-MLPは複数のビジョンベンチマークで競合性能を達成する。
例えば、885万のパラメータを持つMS-MLPは、ImageNet-1K上で83.8%のトップ1分類精度を達成する。
さらに、MS-MLPとSwin Transformerのような最先端のVision Transformerを組み合わせることで、MS-MLPは3つのモデルスケール(例えば、ImageNet-1K分類とSwin-B)でさらなる改善を実現していることを示す。
コードはhttps://github.com/jegzheng/ms-mlp。
関連論文リスト
- Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。