論文の概要: ConvMLP: Hierarchical Convolutional MLPs for Vision
- arxiv url: http://arxiv.org/abs/2109.04454v1
- Date: Thu, 9 Sep 2021 17:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:12:05.299046
- Title: ConvMLP: Hierarchical Convolutional MLPs for Vision
- Title(参考訳): ConvMLP: ビジョンのための階層的畳み込み型MLP
- Authors: Jiachen Li, Ali Hassani, Steven Walton and Humphrey Shi
- Abstract要約: 本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 7.874749885641495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MLP-based architectures, which consist of a sequence of consecutive
multi-layer perceptron blocks, have recently been found to reach comparable
results to convolutional and transformer-based methods. However, most adopt
spatial MLPs which take fixed dimension inputs, therefore making it difficult
to apply them to downstream tasks, such as object detection and semantic
segmentation. Moreover, single-stage designs further limit performance in other
computer vision tasks and fully connected layers bear heavy computation. To
tackle these problems, we propose ConvMLP: a hierarchical Convolutional MLP for
visual recognition, which is a light-weight, stage-wise, co-design of
convolution layers, and MLPs. In particular, ConvMLP-S achieves 76.8% top-1
accuracy on ImageNet-1k with 9M parameters and 2.4G MACs (15% and 19% of
MLP-Mixer-B/16, respectively). Experiments on object detection and semantic
segmentation further show that visual representation learned by ConvMLP can be
seamlessly transferred and achieve competitive results with fewer parameters.
Our code and pre-trained models are publicly available at
https://github.com/SHI-Labs/Convolutional-MLPs.
- Abstract(参考訳): 連続する多層パーセプトロンブロックからなるmlpベースのアーキテクチャは、畳み込みおよびトランスフォーマーベースの手法に匹敵する結果に達することが最近発見されている。
しかし、ほとんどの場合、固定次元入力を取る空間的MLPを採用しており、オブジェクト検出やセマンティックセグメンテーションといった下流タスクに適用することは困難である。
さらに、単段設計は他のコンピュータビジョンタスクの性能をさらに制限し、完全に接続された層は重い計算量を持つ。
このような問題に対処するために,我々は,畳み込み層とMDPの軽量でステージワイドな共同設計である視覚認識のための階層型畳み込み型MLPであるConvMLPを提案する。
特に、ConvMLP-Sは9Mパラメータと2.4GMAC(それぞれMLP-Mixer-B/16の15%と19%)を持つImageNet-1kで76.8%のトップ1精度を達成した。
オブジェクト検出とセマンティクスセグメンテーションの実験は、さらにconvmlpによって学習された視覚的表現をシームレスに転送でき、パラメータの少ない競合結果が得られることを示した。
私たちのコードと事前トレーニングされたモデルは、https://github.com/SHI-Labs/Convolutional-MLPsで公開されています。
関連論文リスト
- BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons [37.28828605119602]
本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-29T02:43:41Z) - MDMLP: Image Classification from Scratch on Small Datasets with MLP [7.672827879118106]
近年,アテンション機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。
近年,マルチ層パーセプトロン(MLP)をベースとしたMixerなどのアーキテクチャも,CNNやアテンション技術と比較して強力である。
論文 参考訳(メタデータ) (2022-05-28T16:26:59Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。