Fugu-MT 論文翻訳(概要): MLP-Mixer as a Wide and Sparse MLP

論文の概要: MLP-Mixer as a Wide and Sparse MLP

arxiv url: http://arxiv.org/abs/2306.01470v1
Date: Fri, 2 Jun 2023 11:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 15:14:24.845925
Title: MLP-Mixer as a Wide and Sparse MLP
Title（参考訳）: 広帯域MLPとしてのMLPミクサ
Authors: Tomohiro Hayase, Ryo Karakida
Abstract要約: 多層パーセプトロン(MLP)は深層学習の基本的な構成要素である。最近のMixerでの実証的な成功は、より良いパフォーマンスを達成するための改善には依然として隠れた可能性があることを明らかにしている。 Mixerはある程度の重量で効果的に機能することを示す。
参考スコア（独自算出の注目度）: 9.289846887298852
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-layer perceptron (MLP) is a fundamental component of deep learning that has been extensively employed for various problems. However, recent empirical successes in MLP-based architectures, particularly the progress of the MLP-Mixer, have revealed that there is still hidden potential in improving MLPs to achieve better performance. In this study, we reveal that the MLP-Mixer works effectively as a wide MLP with certain sparse weights. Initially, we clarify that the mixing layer of the Mixer has an effective expression as a wider MLP whose weights are sparse and represented by the Kronecker product. This expression naturally defines a permuted-Kronecker (PK) family, which can be regarded as a general class of mixing layers and is also regarded as an approximation of Monarch matrices. Subsequently, because the PK family effectively constitutes a wide MLP with sparse weights, one can apply the hypothesis proposed by Golubeva, Neyshabur and Gur-Ari (2021) that the prediction performance improves as the width (sparsity) increases when the number of weights is fixed. We empirically verify this hypothesis by maximizing the effective width of the MLP-Mixer, which enables us to determine the appropriate size of the mixing layers quantitatively.
Abstract（参考訳）: 多層パーセプトロン(MLP)は深層学習の基本的要素であり,様々な問題に広く用いられている。しかし、近年のMLPベースのアーキテクチャ、特にMLP-Mixerの進歩は、MPPを改善するための隠れた可能性があることを明らかにしている。本研究では, MLP-Mixer が, 一定重量の広帯域 MLP として有効であることを明らかにした。まず,ミキサーの混合層は,重量が小さくクロネッカー生成物で表されるより広いmlpとして効果的に発現することを明らかにした。この表現は自然に置換クロネッカー(PK)ファミリーを定義しており、これは混合層の一般的なクラスと見なすことができ、モナール行列の近似でもある。その後、PKファミリーはスパース重み付き広いMLPを効果的に構成するので、ウェイト数が固定されたときに幅(スパーシティ)が増加するにつれて予測性能が向上する、とGolubeva, Neyshabur, Gur-Ari (2021) が提唱した仮説を適用することができる。 MLP-Mixerの有効幅を最大化することにより,この仮説を実証的に検証し,混合層のサイズを定量的に決定する。

関連論文リスト

Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking [6.9366619419210656]
トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
論文参考訳（メタデータ） (2024-06-18T02:42:19Z)
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文参考訳（メタデータ） (2023-12-01T23:04:27Z)
SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文参考訳（メタデータ） (2023-12-01T08:22:34Z)
NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning [40.994306592119266]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
論文参考訳（メタデータ） (2023-07-18T03:12:51Z)
SplitMixer: Fat Trimmed From MLP-like Models [53.12472550578278]
視覚認識のためのシンプルで軽量な等方的アーキテクチャであるSplitMixerを提案する。情報(空間混合)とチャネル(チャネル混合)の2種類のインターリーブ畳み込み操作を含む。
論文参考訳（メタデータ） (2022-07-21T01:37:07Z)
Boosting Adversarial Transferability of MLP-Mixer [9.957957463532738]
我々は,マクスウェルの悪魔攻撃(MA)と呼ばれるDense-Mixerに対する敵攻撃法を提案する。提案手法は既存の手法と簡単に組み合わせることができ,ResMLPでは最大38.0%の転送性を向上させることができる。我々の知る限りでは、Dense-Mixerの対向移動可能性を研究する最初の研究である。
論文参考訳（メタデータ） (2022-04-26T10:18:59Z)
Mixing and Shifting: Exploiting Global and Local Dependencies in Vision MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。 MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文参考訳（メタデータ） (2022-02-14T06:53:48Z)
PointMixer: MLP-Mixer for Point Cloud Understanding [74.694733918351]
チャネルミキシングとトークンミキシングの概念は、視覚認識タスクにおいて顕著なパフォーマンスを達成する。画像とは異なり、点雲は本質的にスパースで、秩序がなく、不規則であり、点雲の理解にユニバーサルミクサーを直接使用することを制限する。本稿では,非構造化3次元点間の情報共有を容易にする共通点集合演算子であるPointMixerを提案する。
論文参考訳（メタデータ） (2021-11-22T13:25:54Z)
Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文参考訳（メタデータ） (2021-06-28T17:59:57Z)
MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。 Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文参考訳（メタデータ） (2021-05-04T16:17:21Z)
Modal Regression based Structured Low-rank Matrix Recovery for Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文参考訳（メタデータ） (2020-03-22T03:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。