論文の概要: JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and
Attention
- arxiv url: http://arxiv.org/abs/2310.00535v2
- Date: Tue, 3 Oct 2023 04:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:38:34.873084
- Title: JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and
Attention
- Title(参考訳): JoMA: MLPとアテンションのジョイントダイナミクスによる多層トランスのデミスティファイション
- Authors: Yuandong Tian, Yiping Wang, Zhenyu Zhang, Beidi Chen, Simon Du
- Abstract要約: 複数層トランスのトレーニング手順を理解するために,JoMA(Joon/Attention)ダイナミクスを提案する。
JoMAは、最初に注意が粗くなり(正則なトークンを学ぶために)、次に非線形なアクティベーションの存在下で(より正則なトークンを学ぶために)密集する、と予測する。
入力トークンが潜在階層生成モデルによって生成されるとき、JoMAを利用してトークンを定性的に組み合わせて多層トランスフォーマーの階層を形成する方法について説明する。
- 参考スコア(独自算出の注目度): 38.9279012678065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Joint MLP/Attention (JoMA) dynamics, a novel mathematical
framework to understand the training procedure of multilayer Transformer
architectures. This is achieved by integrating out the self-attention layer in
Transformers, producing a modified dynamics of MLP layers only. JoMA removes
unrealistic assumptions in previous analysis (e.g., lack of residual
connection) and predicts that the attention first becomes sparse (to learn
salient tokens), then dense (to learn less salient tokens) in the presence of
nonlinear activations, while in the linear case, it is consistent with existing
works that show attention becomes sparse over time. We leverage JoMA to
qualitatively explains how tokens are combined to form hierarchies in
multilayer Transformers, when the input tokens are generated by a latent
hierarchical generative model. Experiments on models trained from real-world
dataset (Wikitext2/Wikitext103) and various pre-trained models (OPT, Pythia)
verify our theoretical findings.
- Abstract(参考訳): 多層トランスフォーマーアーキテクチャのトレーニング手順を理解するための新しい数学的枠組みであるジョイントMLP/アテンション(JoMA)ダイナミクスを提案する。
これはトランスフォーマーに自己アテンション層を統合することで実現され、mlp層のみを改良したダイナミクスを生成する。
ジョマは以前の分析(例えば残差接続の欠如)で非現実的な仮定を取り除き、最初に注意が薄くなる(サルエントトークンを学ぶ)と予測し、非線形アクティベーションの存在下で(サルエントトークンを学ぶために)密集するが、線形の場合、時間とともに注意が薄くなる既存の作品と一致する。
入力トークンが潜在階層生成モデルによって生成されるとき、JoMAを利用してトークンを定性的に組み合わせて多層トランスフォーマーの階層を形成する方法について説明する。
実世界のデータセット(Wikitext2/Wikitext103)と様々な事前学習モデル(OPT, Pythia)から学習したモデルによる実験は、我々の理論的知見を検証する。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - Scan and Snap: Understanding Training Dynamics and Token Composition in
1-layer Transformer [37.37547759817417]
トランスフォーマーアーキテクチャは、複数の研究領域で顕著な性能を示している。
我々は、次のトークン予測タスクのためのSGDトレーニングダイナミクスを解析する。
自己注意が自己識別型スキャンアルゴリズムとして機能することを証明する。
論文 参考訳(メタデータ) (2023-05-25T15:59:13Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。