論文の概要: MLP-Mixer as a Wide and Sparse MLP
- arxiv url: http://arxiv.org/abs/2306.01470v1
- Date: Fri, 2 Jun 2023 11:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:14:24.845925
- Title: MLP-Mixer as a Wide and Sparse MLP
- Title(参考訳): 広帯域MLPとしてのMLPミクサ
- Authors: Tomohiro Hayase, Ryo Karakida
- Abstract要約: 多層パーセプトロン(MLP)は深層学習の基本的な構成要素である。
最近のMixerでの実証的な成功は、より良いパフォーマンスを達成するための改善には依然として隠れた可能性があることを明らかにしている。
Mixerはある程度の重量で効果的に機能することを示す。
- 参考スコア(独自算出の注目度): 9.289846887298852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-layer perceptron (MLP) is a fundamental component of deep learning that
has been extensively employed for various problems. However, recent empirical
successes in MLP-based architectures, particularly the progress of the
MLP-Mixer, have revealed that there is still hidden potential in improving MLPs
to achieve better performance. In this study, we reveal that the MLP-Mixer
works effectively as a wide MLP with certain sparse weights. Initially, we
clarify that the mixing layer of the Mixer has an effective expression as a
wider MLP whose weights are sparse and represented by the Kronecker product.
This expression naturally defines a permuted-Kronecker (PK) family, which can
be regarded as a general class of mixing layers and is also regarded as an
approximation of Monarch matrices. Subsequently, because the PK family
effectively constitutes a wide MLP with sparse weights, one can apply the
hypothesis proposed by Golubeva, Neyshabur and Gur-Ari (2021) that the
prediction performance improves as the width (sparsity) increases when the
number of weights is fixed. We empirically verify this hypothesis by maximizing
the effective width of the MLP-Mixer, which enables us to determine the
appropriate size of the mixing layers quantitatively.
- Abstract(参考訳): 多層パーセプトロン(MLP)は深層学習の基本的要素であり,様々な問題に広く用いられている。
しかし、近年のMLPベースのアーキテクチャ、特にMLP-Mixerの進歩は、MPPを改善するための隠れた可能性があることを明らかにしている。
本研究では, MLP-Mixer が, 一定重量の広帯域 MLP として有効であることを明らかにした。
まず,ミキサーの混合層は,重量が小さくクロネッカー生成物で表されるより広いmlpとして効果的に発現することを明らかにした。
この表現は自然に置換クロネッカー(PK)ファミリーを定義しており、これは混合層の一般的なクラスと見なすことができ、モナール行列の近似でもある。
その後、PKファミリーはスパース重み付き広いMLPを効果的に構成するので、ウェイト数が固定されたときに幅(スパーシティ)が増加するにつれて予測性能が向上する、とGolubeva, Neyshabur, Gur-Ari (2021) が提唱した仮説を適用することができる。
MLP-Mixerの有効幅を最大化することにより,この仮説を実証的に検証し,混合層のサイズを定量的に決定する。
関連論文リスト
- NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning [40.994306592119266]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - Boosting Adversarial Transferability of MLP-Mixer [9.957957463532738]
我々は,マクスウェルの悪魔攻撃(MA)と呼ばれるDense-Mixerに対する敵攻撃法を提案する。
提案手法は既存の手法と簡単に組み合わせることができ,ResMLPでは最大38.0%の転送性を向上させることができる。
我々の知る限りでは、Dense-Mixerの対向移動可能性を研究する最初の研究である。
論文 参考訳(メタデータ) (2022-04-26T10:18:59Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。