論文の概要: Attention-Only Transformers and Implementing MLPs with Attention Heads
- arxiv url: http://arxiv.org/abs/2309.08593v1
- Date: Fri, 15 Sep 2023 17:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:22:13.215963
- Title: Attention-Only Transformers and Implementing MLPs with Attention Heads
- Title(参考訳): アテンションオンリー変換器とアテンションヘッドを用いたMLPの実装
- Authors: Robert Huben and Valerie Morris
- Abstract要約: 内部次元1のマスキングアテンションヘッドによりニューロンを実装できることを実証する。
また,アテンションヘッドが任意のマスキングパターンを任意に小さな誤差で符号化できることも証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture is widely used in machine learning models and
consists of two alternating sublayers: attention heads and MLPs. We prove that
an MLP neuron can be implemented by a masked attention head with internal
dimension 1 so long as the MLP's activation function comes from a restricted
class including SiLU and close approximations of ReLU and GeLU. This allows one
to convert an MLP-and-attention transformer into an attention-only transformer
at the cost of greatly increasing the number of attention heads. We also prove
that attention heads can perform the components of an MLP (linear
transformations and activation functions) separately. Finally, we prove that
attention heads can encode arbitrary masking patterns in their weight matrices
to within arbitrarily small error.
- Abstract(参考訳): トランスフォーマーアーキテクチャは機械学習モデルで広く使われており、アテンションヘッドとMPPの2つの交互サブレイヤで構成されている。
我々は,MLPの活性化機能がSiLUを含む制限クラスとReLUとGeLUの近似値から得られる限り,MLPニューロンを内部次元1のマスキングアテンションヘッドで実装できることを証明した。
これにより、MLPとアテンション変換器をアテンションのみのトランスに変換することができ、アテンションヘッドの数を大幅に増やすことができる。
また,MLP(線形変換とアクティベーション関数)の成分を別々に処理できることも証明した。
最後に,重み行列の任意のマスキングパターンを任意に小さな誤差で符号化できることを示す。
関連論文リスト
- Lateralization MLP: A Simple Brain-inspired Architecture for Diffusion [20.437172251393257]
並列化(L-MLP)と呼ばれる,単純だが効果的なアーキテクチャを提案する。
人間の脳の側方化に触発されて、我々は、L-MLPと呼ばれる新しい単純で効果的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-05-25T07:10:02Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Pay Attention to MLPs [84.54729425918164]
gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。
我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。
一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
論文 参考訳(メタデータ) (2021-05-17T17:55:04Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。