論文の概要: Strip-MLP: Efficient Token Interaction for Vision MLP
- arxiv url: http://arxiv.org/abs/2307.11458v1
- Date: Fri, 21 Jul 2023 09:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:03:58.376919
- Title: Strip-MLP: Efficient Token Interaction for Vision MLP
- Title(参考訳): Strip-MLP:視覚MLPのための効率的なトークンインタラクション
- Authors: Guiping Cao, Shengda Luo, Wenjian Huang, Xiangyuan Lan, Dongmei Jiang,
Yaowei Wang, Jianguo Zhang
- Abstract要約: textbfStrip-MLPを導入し,トークン間相互作用を3つの方法で強化する。
Strip-MLPは、小さなデータセット上での空間モデルの性能を大幅に改善する。
CIFAR-100ではCaltech-101では+2.44%、CIFAR-100では+2.16%である。
- 参考スコア(独自算出の注目度): 31.02197585697145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token interaction operation is one of the core modules in MLP-based models to
exchange and aggregate information between different spatial locations.
However, the power of token interaction on the spatial dimension is highly
dependent on the spatial resolution of the feature maps, which limits the
model's expressive ability, especially in deep layers where the feature are
down-sampled to a small spatial size. To address this issue, we present a novel
method called \textbf{Strip-MLP} to enrich the token interaction power in three
ways. Firstly, we introduce a new MLP paradigm called Strip MLP layer that
allows the token to interact with other tokens in a cross-strip manner,
enabling the tokens in a row (or column) to contribute to the information
aggregations in adjacent but different strips of rows (or columns). Secondly, a
\textbf{C}ascade \textbf{G}roup \textbf{S}trip \textbf{M}ixing \textbf{M}odule
(CGSMM) is proposed to overcome the performance degradation caused by small
spatial feature size. The module allows tokens to interact more effectively in
the manners of within-patch and cross-patch, which is independent to the
feature spatial size. Finally, based on the Strip MLP layer, we propose a novel
\textbf{L}ocal \textbf{S}trip \textbf{M}ixing \textbf{M}odule (LSMM) to boost
the token interaction power in the local region. Extensive experiments
demonstrate that Strip-MLP significantly improves the performance of MLP-based
models on small datasets and obtains comparable or even better results on
ImageNet. In particular, Strip-MLP models achieve higher average Top-1 accuracy
than existing MLP-based models by +2.44\% on Caltech-101 and +2.16\% on
CIFAR-100. The source codes will be available
at~\href{https://github.com/Med-Process/Strip_MLP{https://github.com/Med-Process/Strip\_MLP}.
- Abstract(参考訳): トークン相互作用操作は、異なる空間的位置間で情報を交換・集約するMLPモデルにおける中核モジュールの1つである。
しかし、空間次元におけるトークン相互作用のパワーは特徴写像の空間分解能に大きく依存しており、特にその特徴が小さな空間サイズにダウンサンプリングされた深層において、モデルの表現能力を制限する。
この問題に対処するために,トークン相互作用パワーを3つの方法で強化する,textbf{Strip-MLP} という新しい手法を提案する。
まず、Strip MLP層と呼ばれる新しいMLPパラダイムを導入し、トークンが他のトークンとクロスストリップで対話できるようにし、行(または列)内のトークンが隣り合うが異なる行(または列)内の情報集約に寄与できるようにする。
次に,小さな空間的特徴量による性能劣化を克服するために, \textbf{c}ascade \textbf{g}roup \textbf{s}trip \textbf{m}ixing \textbf{m}odule (cgsmm) を提案する。
このモジュールにより、トークンは、特徴空間サイズに依存しない、内部パッチと横断パッチの方法でより効果的に対話できる。
最後に、Strip MLP層に基づいて、局所領域におけるトークン相互作用力を高めるために、新しい \textbf{L}ocal \textbf{S}trip \textbf{M}ixing \textbf{M}odule (LSMM) を提案する。
大規模な実験により、Strip-MLPは小さなデータセット上でのMLPベースのモデルの性能を著しく改善し、ImageNetで同等またはそれ以上の結果を得ることができることが示された。
特に、Strip-MLPモデルは、Caltech-101で+2.44\%、CIFAR-100で+2.16\%、既存のMLPベースのモデルよりも平均Top-1精度が高い。
ソースコードは~\href{https://github.com/Med-Process/Strip_MLP{https://github.com/Med-Process/Strip\_MLP}で入手できる。
関連論文リスト
- TriMLP: Revenge of a MLP-like Architecture in Sequential Recommendation [23.32537260687907]
本稿では,TriMLPという逐次レコメンデーションのためのシーケンシャルなアーキテクチャと,クロストークン通信のための新しい三角形ミキサーを提案する。
三角ミキサーの設計において,基本行列乗算としてのクロストケン操作のイナシイを単純化し,重み行列の下方三角形ニューロンを落として,反時間次接続を将来のトークンからブロックする。
論文 参考訳(メタデータ) (2023-05-24T03:32:31Z) - BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons [37.28828605119602]
本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-29T02:43:41Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。