論文の概要: X-MLP: A Patch Embedding-Free MLP Architecture for Vision
- arxiv url: http://arxiv.org/abs/2307.00592v1
- Date: Sun, 2 Jul 2023 15:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:04:50.668056
- Title: X-MLP: A Patch Embedding-Free MLP Architecture for Vision
- Title(参考訳): X-MLP: ビジョンのためのパッチ埋め込みなしMLPアーキテクチャ
- Authors: Xinyue Wang, Zhicheng Cai and Chenglei Peng
- Abstract要約: 視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
- 参考スコア(独自算出の注目度): 4.493200639605705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) and vision transformers (ViT) have
obtained great achievements in computer vision. Recently, the research of
multi-layer perceptron (MLP) architectures for vision have been popular again.
Vision MLPs are designed to be independent from convolutions and self-attention
operations. However, existing vision MLP architectures always depend on
convolution for patch embedding. Thus we propose X-MLP, an architecture
constructed absolutely upon fully connected layers and free from patch
embedding. It decouples the features extremely and utilizes MLPs to interact
the information across the dimension of width, height and channel independently
and alternately. X-MLP is tested on ten benchmark datasets, all obtaining
better performance than other vision MLP models. It even surpasses CNNs by a
clear margin on various dataset. Furthermore, through mathematically restoring
the spatial weights, we visualize the information communication between any
couples of pixels in the feature map and observe the phenomenon of capturing
long-range dependency.
- Abstract(参考訳): convolutional neural networks (cnns) と vision transformers (vit) はコンピュータビジョンにおいて大きな業績を上げている。
近年、視覚のための多層パーセプトロン(mlp)アーキテクチャの研究が再び盛んになっている。
ビジョンMLPは、畳み込みや自己注意操作から独立して設計されている。
しかし、既存のビジョンMLPアーキテクチャは常にパッチ埋め込みの畳み込みに依存している。
そこで我々は,完全連結層上に完全に構築されたアーキテクチャであるX-MLPを提案する。
特徴を極端に分離し、mlpを使用して、幅、高さ、チャネルの次元を独立して交互に情報をやり取りする。
x-mlpは10のベンチマークデータセットでテストされ、すべて他のvision mlpモデルよりも優れたパフォーマンスを得る。
さまざまなデータセットに対して明確なマージンでCNNを超えています。
さらに,空間重みを数学的に復元することにより,特徴マップ内の任意の画素間の情報通信を可視化し,長距離依存を捉える現象を観察する。
関連論文リスト
- R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - MDMLP: Image Classification from Scratch on Small Datasets with MLP [7.672827879118106]
近年,アテンション機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。
近年,マルチ層パーセプトロン(MLP)をベースとしたMixerなどのアーキテクチャも,CNNやアテンション技術と比較して強力である。
論文 参考訳(メタデータ) (2022-05-28T16:26:59Z) - An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T06:25:49Z) - Are we ready for a new paradigm shift? A Survey on Visual Deep MLP [33.00328314841369]
初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。
ハードウェア・コンピューティングのパワーとデータセットのサイズに制約され、かつては何十年にもわたって沈んだ。
我々は、手動の特徴抽出から、局所受容野を持つCNNへのパラダイムシフト、さらにグローバル受容野を持つTransformへのパラダイムシフトを目撃した。
論文 参考訳(メタデータ) (2021-11-07T12:02:00Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。