論文の概要: Are we ready for a new paradigm shift? A Survey on Visual Deep MLP
- arxiv url: http://arxiv.org/abs/2111.04060v1
- Date: Sun, 7 Nov 2021 12:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:52:51.794706
- Title: Are we ready for a new paradigm shift? A Survey on Visual Deep MLP
- Title(参考訳): 新しいパラダイムシフトの準備はできているか?
Visual Deep MLPに関する調査
- Authors: Ruiyang Liu, Yinghui Li, Dun Liang, Linmi Tao, Shimin Hu, Hai-Tao
Zheng
- Abstract要約: 初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。
ハードウェア・コンピューティングのパワーとデータセットのサイズに制約され、かつては何十年にもわたって沈んだ。
我々は、手動の特徴抽出から、局所受容野を持つCNNへのパラダイムシフト、さらにグローバル受容野を持つTransformへのパラダイムシフトを目撃した。
- 参考スコア(独自算出の注目度): 33.00328314841369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilayer perceptron (MLP), as the first neural network structure to appear,
was a big hit. But constrained by the hardware computing power and the size of
the datasets, it once sank for tens of years. During this period, we have
witnessed a paradigm shift from manual feature extraction to the CNN with local
receptive fields, and further to the Transform with global receptive fields
based on self-attention mechanism. And this year (2021), with the introduction
of MLP-Mixer, MLP has re-entered the limelight and has attracted extensive
research from the computer vision community. Compare to the conventional MLP,
it gets deeper but changes the input from full flattening to patch flattening.
Given its high performance and less need for vision-specific inductive bias,
the community can't help but wonder, Will MLP, the simplest structure with
global receptive fields but no attention, become a new computer vision
paradigm? To answer this question, this survey aims to provide a comprehensive
overview of the recent development of vision deep MLP models. Specifically, we
review these vision deep MLPs detailedly, from the subtle sub-module design to
the global network structure. We compare the receptive field, computational
complexity, and other properties of different network designs in order to have
a clear understanding of the development path of MLPs. The investigation shows
that MLPs' resolution-sensitivity and computational densities remain
unresolved, and pure MLPs are gradually evolving towards CNN-like. We suggest
that the current data volume and computational power are not ready to embrace
pure MLPs, and artificial visual guidance remains important. Finally, we
provide an analysis of open research directions and possible future works. We
hope this effort will ignite further interest in the community and encourage
better visual tailored design for the neural network at the moment.
- Abstract(参考訳): 初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。
しかし、ハードウェアコンピューティングのパワーとデータセットのサイズに制約されて、かつては数年にもわたって沈んだ。
この間,我々は,手作業による特徴抽出から局所受容野を用いたcnnへのパラダイムシフト,さらに自己認識機構に基づく大域受容野によるトランスフォーメーションを目の当たりにした。
そして今年(2021年)、MLP-Mixerの導入により、MLPは再びライムライトに突入し、コンピュータビジョンコミュニティから広範な研究を惹きつけている。
従来のMLPと比較して、より深くなったが、入力はフルフラット化からパッチフラット化に変化する。
ハイパフォーマンスで視覚特異的な帰納バイアスをあまり必要とせず、コミュニティは、世界的受容領域を持つ最も単純な構造であるMLPは、新しいコンピュータビジョンパラダイムになるのだろうか、と疑問に思う。
本調査は,近年の視覚深部MLPモデル開発の概要を明らかにすることを目的としている。
具体的には、微妙なサブモジュール設計からグローバルネットワーク構造まで、これらのビジョンの深いmlpを詳細にレビューする。
我々は,MLPの開発経路を明確に把握するために,異なるネットワーク設計の受容場,計算複雑性,その他の特性を比較した。
MLPの分解能感度と計算密度は未解決のままであり、純粋なMLPは徐々にCNNライクに進化している。
我々は、現在のデータ量と計算能力は純粋なMLPを受け入れる準備ができておらず、人工的な視覚誘導が依然として重要であることを示唆する。
最後に,オープン研究の方向性と今後の課題について分析する。
この取り組みがコミュニティへのさらなる関心を喚起し、現時点ではニューラルネットワークのためのより良いビジュアルなデザインを奨励することを期待しています。
関連論文リスト
- X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2023-07-02T15:20:25Z) - GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - MDMLP: Image Classification from Scratch on Small Datasets with MLP [7.672827879118106]
近年,アテンション機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。
近年,マルチ層パーセプトロン(MLP)をベースとしたMixerなどのアーキテクチャも,CNNやアテンション技術と比較して強力である。
論文 参考訳(メタデータ) (2022-05-28T16:26:59Z) - ActiveMLP: An MLP-like Architecture with Active Token Mixer [54.95923719553343]
本稿では,コンピュータビジョンのための一般的なバックボーンであるActiveMLPを提案する。
我々は、グローバルな範囲の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込む、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。
このように、トークンミキシングの空間範囲を拡大し、トークンミキシングの方法を変更する。
論文 参考訳(メタデータ) (2022-03-11T17:29:54Z) - Convolutional Gated MLP: Combining Convolutions & gMLP [0.0]
本稿では,Gated MultiLayer Perceptronにコンボリューションを導入する。
Google Brainは2021年5月にgMLPを導入した。
gMLPとCvTの両方に着想を得て,gMLPに畳み込み層を導入する。
論文 参考訳(メタデータ) (2021-11-06T19:11:24Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision? [0.0]
CNNはコンピュータビジョンの世界では過去10年間、最高位に君臨してきたが、最近はTransformerの人気が高まっている。
特に、我々の研究は、モデルが誘導バイアスを採用することでCNNを置き換える可能性を示唆している。
提案モデルであるRaftMLPは,計算複雑性,パラメータ数,実際のメモリ使用量のバランスが良好である。
論文 参考訳(メタデータ) (2021-08-09T23:55:24Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。