Fugu-MT 論文翻訳(概要): JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and Attention

論文の概要: JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and Attention

arxiv url: http://arxiv.org/abs/2310.00535v3
Date: Fri, 15 Mar 2024 02:03:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 03:31:41.322489
Title: JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and Attention
Title（参考訳）: JoMA: MLPとアテンションのジョイントダイナミクスによる多層トランスのデミスティファイション
Authors: Yuandong Tian, Yiping Wang, Zhenyu Zhang, Beidi Chen, Simon Du,
Abstract要約: 多層トランスフォーマーのトレーニング手順を理解するための新しい数学的枠組みであるジョイント/アテンション(JoMA)ダイナミクスを提案する。 JoMAは、最初に注意が粗くなり(正則なトークンを学ぶために)、次に非線形なアクティベーションの存在下で(より正則なトークンを学ぶために)密集する、と予測する。入力トークンが潜在階層生成モデルによって生成されるとき、トークンを結合して多層トランスフォーマーの階層を形成する方法を説明するためにJoMAを利用する。
参考スコア（独自算出の注目度）: 36.737750120893516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Joint MLP/Attention (JoMA) dynamics, a novel mathematical framework to understand the training procedure of multilayer Transformer architectures. This is achieved by integrating out the self-attention layer in Transformers, producing a modified dynamics of MLP layers only. JoMA removes unrealistic assumptions in previous analysis (e.g., lack of residual connection) and predicts that the attention first becomes sparse (to learn salient tokens), then dense (to learn less salient tokens) in the presence of nonlinear activations, while in the linear case, it is consistent with existing works that show attention becomes sparse over time. We leverage JoMA to qualitatively explains how tokens are combined to form hierarchies in multilayer Transformers, when the input tokens are generated by a latent hierarchical generative model. Experiments on models trained from real-world dataset (Wikitext2/Wikitext103) and various pre-trained models (OPT, Pythia) verify our theoretical findings. Code can be found in https://github.com/facebookresearch/luckmatters/tree/yuandong3.
Abstract（参考訳）: 多層トランスフォーマーアーキテクチャのトレーニング手順を理解するための新しい数学的枠組みであるジョイントMLP/アテンション(JoMA)ダイナミクスを提案する。これはTransformersに自己アテンション層を統合することで実現され、MPP層の修正されたダイナミックスのみを生成する。 JoMAは、以前の分析(例えば、残差接続の欠如)における非現実的な仮定を取り除き、注意が(正則なトークンを学習するために)疎くなり、次に非線形なアクティベーションの存在下で(より正則なトークンを学習するために)密度が高くなると予測する。入力トークンが潜在階層生成モデルによって生成されるとき、JoMAを利用してトークンを定性的に組み合わせて多層トランスフォーマーの階層を形成する方法について説明する。実世界のデータセット (Wikitext2/Wikitext103) と様々な事前学習モデル (OPT, Pythia) から学習したモデルを用いた実験により, 理論的知見が得られた。コードはhttps://github.com/facebookresearch/luckmatters/tree/yuandong3で見ることができる。

関連論文リスト

How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文参考訳（メタデータ） (2025-05-02T00:07:35Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-08T16:40:15Z)
Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer [37.37547759817417]
トランスフォーマーアーキテクチャは、複数の研究領域で顕著な性能を示している。我々は、次のトークン予測タスクのためのSGDトレーニングダイナミクスを解析する。自己注意が自己識別型スキャンアルゴリズムとして機能することを証明する。
論文参考訳（メタデータ） (2023-05-25T15:59:13Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。 6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文参考訳（メタデータ） (2022-03-14T04:32:19Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。