論文の概要: Rethinking Token-Mixing MLP for MLP-based Vision Backbone
- arxiv url: http://arxiv.org/abs/2106.14882v1
- Date: Mon, 28 Jun 2021 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:52:33.070019
- Title: Rethinking Token-Mixing MLP for MLP-based Vision Backbone
- Title(参考訳): MLPベースのビジョンバックボーンのためのToken-Mixing MLPの再考
- Authors: Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li
- Abstract要約: 本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
- 参考スコア(独自算出の注目度): 34.47616917228978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past decade, we have witnessed rapid progress in the machine vision
backbone. By introducing the inductive bias from the image processing,
convolution neural network (CNN) has achieved excellent performance in numerous
computer vision tasks and has been established as \emph{de facto} backbone. In
recent years, inspired by the great success achieved by Transformer in NLP
tasks, vision Transformer models emerge. Using much less inductive bias, they
have achieved promising performance in computer vision tasks compared with
their CNN counterparts. More recently, researchers investigate using the
pure-MLP architecture to build the vision backbone to further reduce the
inductive bias, achieving good performance. The pure-MLP backbone is built upon
channel-mixing MLPs to fuse the channels and token-mixing MLPs for
communications between patches. In this paper, we re-think the design of the
token-mixing MLP. We discover that token-mixing MLPs in existing MLP-based
backbones are spatial-specific, and thus it is sensitive to spatial
translation. Meanwhile, the channel-agnostic property of the existing
token-mixing MLPs limits their capability in mixing tokens. To overcome those
limitations, we propose an improved structure termed as Circulant
Channel-Specific (CCS) token-mixing MLP, which is spatial-invariant and
channel-specific. It takes fewer parameters but achieves higher classification
accuracy on ImageNet1K benchmark.
- Abstract(参考訳): 過去10年間、私たちはマシンビジョンのバックボーンの急速な進歩を目撃してきました。
画像処理から帰納バイアスを導入することで、畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクにおいて優れた性能を発揮し、"emph{de facto}"バックボーンとして確立されている。
近年、NLPタスクにおけるTransformerの大きな成功に触発されて、ビジョントランスフォーマーモデルが登場している。
インダクティブバイアスははるかに少なく、cnnに比べてコンピュータビジョンタスクで有望なパフォーマンスを達成している。
最近では、pure-mlpアーキテクチャを使用してビジョンバックボーンを構築し、インダクティブバイアスをさらに低減し、優れたパフォーマンスを達成するために研究が進められている。
純粋なMLPバックボーンは、チャネルを融合させるMLPと、パッチ間の通信のためにトークンを混合するMLPの上に構築されている。
本稿では,トークン混合型MLPの設計を再考する。
既存のMLPベースバックボーンのトークン混合MLPは空間特異的であり,空間翻訳に敏感であることがわかった。
一方、既存のトークン混合MLPのチャネルに依存しない性質は、トークンを混合する能力を制限する。
これらの制限を克服するため,Circulant Channel-Specific(CCS)トークン混合MLPと呼ばれる改良された構造を提案する。
パラメータは少ないが、ImageNet1Kベンチマークで高い分類精度を達成する。
関連論文リスト
- SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning [40.994306592119266]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision? [0.0]
CNNはコンピュータビジョンの世界では過去10年間、最高位に君臨してきたが、最近はTransformerの人気が高まっている。
特に、我々の研究は、モデルが誘導バイアスを採用することでCNNを置き換える可能性を示唆している。
提案モデルであるRaftMLPは,計算複雑性,パラメータ数,実際のメモリ使用量のバランスが良好である。
論文 参考訳(メタデータ) (2021-08-09T23:55:24Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。