論文の概要: Understanding MLP-Mixer as a Wide and Sparse MLP
- arxiv url: http://arxiv.org/abs/2306.01470v2
- Date: Mon, 6 May 2024 20:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 20:33:08.021433
- Title: Understanding MLP-Mixer as a Wide and Sparse MLP
- Title(参考訳): MLP-Mixer を広義かつスパースな MLP として理解する
- Authors: Tomohiro Hayase, Ryo Karakida,
- Abstract要約: 多層パーセプトロン(MLP)は深層学習の基本的な構成要素である。
最近のアーキテクチャ、特にMixer-Mixerは、経験的成功を収めた。
スパースネスはMixer-Mixersの根底にある重要なメカニズムであることを示す。
- 参考スコア(独自算出の注目度): 7.734726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-layer perceptron (MLP) is a fundamental component of deep learning, and recent MLP-based architectures, especially the MLP-Mixer, have achieved significant empirical success. Nevertheless, our understanding of why and how the MLP-Mixer outperforms conventional MLPs remains largely unexplored. In this work, we reveal that sparseness is a key mechanism underlying the MLP-Mixers. First, the Mixers have an effective expression as a wider MLP with Kronecker-product weights, clarifying that the Mixers efficiently embody several sparseness properties explored in deep learning. In the case of linear layers, the effective expression elucidates an implicit sparse regularization caused by the model architecture and a hidden relation to Monarch matrices, which is also known as another form of sparse parameterization. Next, for general cases, we empirically demonstrate quantitative similarities between the Mixer and the unstructured sparse-weight MLPs. Following a guiding principle proposed by Golubeva, Neyshabur and Gur-Ari (2021), which fixes the number of connections and increases the width and sparsity, the Mixers can demonstrate improved performance.
- Abstract(参考訳): 多層パーセプトロン(MLP)はディープラーニングの基本コンポーネントであり、最近のMLPベースのアーキテクチャ、特にMLP-Mixerは経験的成功を収めている。
それでも、MLP-Mixerが従来のMLPよりも優れている理由と方法に関する我々の理解は、まだ明らかにされていない。
本研究では, MLP-Mixersの基盤となるスパークネスが重要なメカニズムであることを明らかにした。
まず、ミキサーはクロネッカー積重みを持つより広いMLPとして効果的に表現され、ミキサーは深層学習において探索されたいくつかのスパース性特性を効果的に具現化する。
線形層の場合、有効式はモデルアーキテクチャによって引き起こされる暗黙のスパース正規化とモナール行列との隠れ関係を解明する。
次に、一般に、ミキサーと非構造スパース重み付きMLPの量的類似性を実証的に示す。
Golubeva、Neyshabur、Gur-Ari(2021年)によって提案されたガイド原理に従って、接続数を修正し、幅と幅を拡大する。
関連論文リスト
- Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking [6.9366619419210656]
トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。
最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。
本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
論文 参考訳(メタデータ) (2024-06-18T02:42:19Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning [40.994306592119266]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - SplitMixer: Fat Trimmed From MLP-like Models [53.12472550578278]
視覚認識のためのシンプルで軽量な等方的アーキテクチャであるSplitMixerを提案する。
情報(空間混合)とチャネル(チャネル混合)の2種類のインターリーブ畳み込み操作を含む。
論文 参考訳(メタデータ) (2022-07-21T01:37:07Z) - Boosting Adversarial Transferability of MLP-Mixer [9.957957463532738]
我々は,マクスウェルの悪魔攻撃(MA)と呼ばれるDense-Mixerに対する敵攻撃法を提案する。
提案手法は既存の手法と簡単に組み合わせることができ,ResMLPでは最大38.0%の転送性を向上させることができる。
我々の知る限りでは、Dense-Mixerの対向移動可能性を研究する最初の研究である。
論文 参考訳(メタデータ) (2022-04-26T10:18:59Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - PointMixer: MLP-Mixer for Point Cloud Understanding [74.694733918351]
チャネルミキシングとトークンミキシングの概念は、視覚認識タスクにおいて顕著なパフォーマンスを達成する。
画像とは異なり、点雲は本質的にスパースで、秩序がなく、不規則であり、点雲の理解にユニバーサルミクサーを直接使用することを制限する。
本稿では,非構造化3次元点間の情報共有を容易にする共通点集合演算子であるPointMixerを提案する。
論文 参考訳(メタデータ) (2021-11-22T13:25:54Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。