論文の概要: Pay Attention to MLPs
- arxiv url: http://arxiv.org/abs/2105.08050v1
- Date: Mon, 17 May 2021 17:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 15:11:18.383113
- Title: Pay Attention to MLPs
- Title(参考訳): MLPに対する支払い注意
- Authors: Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le
- Abstract要約: gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。
我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。
一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
- 参考スコア(独自算出の注目度): 84.54729425918164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become one of the most important architectural innovations
in deep learning and have enabled many breakthroughs over the past few years.
Here we propose a simple attention-free network architecture, gMLP, based
solely on MLPs with gating, and show that it can perform as well as
Transformers in key language and vision applications. Our comparisons show that
self-attention is not critical for Vision Transformers, as gMLP can achieve the
same accuracy. For BERT, our model achieves parity with Transformers on
pretraining perplexity and is better on some downstream tasks. On finetuning
tasks where gMLP performs worse, making the gMLP model substantially larger can
close the gap with Transformers. In general, our experiments show that gMLP can
scale as well as Transformers over increased data and compute.
- Abstract(参考訳): トランスフォーマーはディープラーニングにおける最も重要なアーキテクチャ上のイノベーションのひとつとなり、ここ数年で多くのブレークスルーを実現している。
本稿では,gatingを用いたmlpのみをベースとするシンプルな注意フリーネットワークアーキテクチャgmlpを提案し,キー言語や視覚アプリケーションにおいてトランスフォーマーと同様に動作することを示す。
我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーにとって自己注意は重要ではない。
BERTの場合、このモデルはトランスフォーマーとパープレクサの事前訓練で同等であり、下流タスクではより優れている。
gMLPが悪化する微調整タスクでは、gMLPモデルを大幅に大きくすることで、Transformerとのギャップを埋めることができる。
一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
関連論文リスト
- Attention-Only Transformers and Implementing MLPs with Attention Heads [0.0]
内部次元1のマスキングアテンションヘッドによりニューロンを実装できることを実証する。
また,アテンションヘッドが任意のマスキングパターンを任意に小さな誤差で符号化できることも証明した。
論文 参考訳(メタデータ) (2023-09-15T17:47:45Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Wide Attention Is The Way Forward For Transformers [9.252523881586054]
幅広い単一層トランスフォーマーモデルでは,自然言語処理(NLP)タスクにおいて,より深い処理と競合したり,より優れたりすることを示す。
以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。
論文 参考訳(メタデータ) (2022-10-02T21:49:54Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。