論文の概要: MDMLP: Image Classification from Scratch on Small Datasets with MLP
- arxiv url: http://arxiv.org/abs/2205.14477v1
- Date: Sat, 28 May 2022 16:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:23:00.767133
- Title: MDMLP: Image Classification from Scratch on Small Datasets with MLP
- Title(参考訳): MDMLP:MLPを用いた小さなデータセット上のスクラッチからの画像分類
- Authors: Tian Lv, Chongyang Bai, Chaojie Wang
- Abstract要約: 近年,アテンション機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。
近年,マルチ層パーセプトロン(MLP)をベースとしたMixerなどのアーキテクチャも,CNNやアテンション技術と比較して強力である。
- 参考スコア(独自算出の注目度): 7.672827879118106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention mechanism has become a go-to technique for natural language
processing and computer vision tasks. Recently, the MLP-Mixer and other
MLP-based architectures, based simply on multi-layer perceptrons (MLPs), are
also powerful compared to CNNs and attention techniques and raises a new
research direction. However, the high capability of the MLP-based networks
severely relies on large volume of training data, and lacks of explanation
ability compared to the Vision Transformer (ViT) or ConvNets. When trained on
small datasets, they usually achieved inferior results than ConvNets. To
resolve it, we present (i) multi-dimensional MLP (MDMLP), a conceptually simple
and lightweight MLP-based architecture yet achieves SOTA when training from
scratch on small-size datasets; (ii) multi-dimension MLP Attention Tool
(MDAttnTool), a novel and efficient attention mechanism based on MLPs. Even
without strong data augmentation, MDMLP achieves 90.90% accuracy on CIFAR10
with only 0.3M parameters, while the well-known MLP-Mixer achieves 85.45% with
17.1M parameters. In addition, the lightweight MDAttnTool highlights objects in
images, indicating its explanation power. Our code is available at
https://github.com/Amoza-Theodore/MDMLP.
- Abstract(参考訳): 注意機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。
近年,マルチ層パーセプトロン(MLP)をベースとしたMLP-Mixerおよび他のMLPアーキテクチャは,CNNやアテンション技術と比較しても強力であり,新たな研究方向性がもたらされている。
しかしながら、mlpベースのネットワークの能力は、大量のトレーニングデータに大きく依存しており、視覚トランスフォーマー(vit)やconvnetsと比較して説明能力が不足している。
小さなデータセットでトレーニングすると、通常、ConvNetsよりも劣った結果が得られる。
それを解決するために、我々は
(i)MDMLP(MDMLP)は、概念的にシンプルで軽量なMLPベースのアーキテクチャで、小型データセットをスクラッチからトレーニングする際にはSOTAを実現する。
(II)MLPに基づく新規かつ効率的な注意機構であるMDAttnTool(MDAttnTool)。
強力なデータ拡張がなくても、MDMLPは0.3MパラメータでCIFAR10上で90.90%の精度を達成し、MLP-Mixerは85.45%と17.1Mパラメータで達成している。
さらに、軽量のMDAttnToolは画像中のオブジェクトをハイライトし、説明力を示している。
私たちのコードはhttps://github.com/Amoza-Theodore/MDMLP.comで利用可能です。
関連論文リスト
- R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。