論文の概要: JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and
Attention
- arxiv url: http://arxiv.org/abs/2310.00535v2
- Date: Tue, 3 Oct 2023 04:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:38:34.873084
- Title: JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and
Attention
- Title(参考訳): JoMA: MLPとアテンションのジョイントダイナミクスによる多層トランスのデミスティファイション
- Authors: Yuandong Tian, Yiping Wang, Zhenyu Zhang, Beidi Chen, Simon Du
- Abstract要約: 複数層トランスのトレーニング手順を理解するために,JoMA(Joon/Attention)ダイナミクスを提案する。
JoMAは、最初に注意が粗くなり(正則なトークンを学ぶために)、次に非線形なアクティベーションの存在下で(より正則なトークンを学ぶために)密集する、と予測する。
入力トークンが潜在階層生成モデルによって生成されるとき、JoMAを利用してトークンを定性的に組み合わせて多層トランスフォーマーの階層を形成する方法について説明する。
- 参考スコア(独自算出の注目度): 38.9279012678065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Joint MLP/Attention (JoMA) dynamics, a novel mathematical
framework to understand the training procedure of multilayer Transformer
architectures. This is achieved by integrating out the self-attention layer in
Transformers, producing a modified dynamics of MLP layers only. JoMA removes
unrealistic assumptions in previous analysis (e.g., lack of residual
connection) and predicts that the attention first becomes sparse (to learn
salient tokens), then dense (to learn less salient tokens) in the presence of
nonlinear activations, while in the linear case, it is consistent with existing
works that show attention becomes sparse over time. We leverage JoMA to
qualitatively explains how tokens are combined to form hierarchies in
multilayer Transformers, when the input tokens are generated by a latent
hierarchical generative model. Experiments on models trained from real-world
dataset (Wikitext2/Wikitext103) and various pre-trained models (OPT, Pythia)
verify our theoretical findings.
- Abstract(参考訳): 多層トランスフォーマーアーキテクチャのトレーニング手順を理解するための新しい数学的枠組みであるジョイントMLP/アテンション(JoMA)ダイナミクスを提案する。
これはトランスフォーマーに自己アテンション層を統合することで実現され、mlp層のみを改良したダイナミクスを生成する。
ジョマは以前の分析(例えば残差接続の欠如)で非現実的な仮定を取り除き、最初に注意が薄くなる(サルエントトークンを学ぶ)と予測し、非線形アクティベーションの存在下で(サルエントトークンを学ぶために)密集するが、線形の場合、時間とともに注意が薄くなる既存の作品と一致する。
入力トークンが潜在階層生成モデルによって生成されるとき、JoMAを利用してトークンを定性的に組み合わせて多層トランスフォーマーの階層を形成する方法について説明する。
実世界のデータセット(Wikitext2/Wikitext103)と様々な事前学習モデル(OPT, Pythia)から学習したモデルによる実験は、我々の理論的知見を検証する。
関連論文リスト
- Transformers Provably Learn Feature-Position Correlations in Masked
Image Modeling [72.19427527234095]
マスク付き画像モデリング(MIM)は、マスクなしのパッチからランダムにマスクされたパッチを予測する。
我々はMIM自己教師型事前学習において,ソフトマックスを考慮した一層変圧器学習のエンドツーエンド理論を提案する。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Masked Image Modeling via Dynamic Token Morphing [31.870272819265058]
Masked Image Modeling (MIM)は、様々な自己教師付き学習(SSL)メソッドの中でビジョントランスフォーマーにとって有望な選択肢である。
本稿では動的トークンを動的に集約する動的トークンモーフィング(DTM)に基づく新しい自己超越信号を提案する。
DTMは一般的に様々なSSLフレームワークに適用できるが,DTMを利用するシンプルなMIMを提案する。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - Scan and Snap: Understanding Training Dynamics and Token Composition in
1-layer Transformer [37.37547759817417]
トランスフォーマーアーキテクチャは、複数の研究領域で顕著な性能を示している。
我々は、次のトークン予測タスクのためのSGDトレーニングダイナミクスを解析する。
自己注意が自己識別型スキャンアルゴリズムとして機能することを証明する。
論文 参考訳(メタデータ) (2023-05-25T15:59:13Z) - A Neural ODE Interpretation of Transformer Layers [8.839601328192957]
マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。
実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
論文 参考訳(メタデータ) (2022-12-12T16:18:58Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T06:25:49Z) - Incorporating Residual and Normalization Layers into Analysis of Masked
Language Models [29.828669678974983]
我々は、トランスフォーマーの分析範囲を、単に注目パターンから注目ブロック全体まで拡張する。
トランスフォーマーをベースとしたマスキング言語モデルの解析により,トークンとトークンの相互作用が従来想定されていた中間表現にほとんど影響を与えないことが分かる。
論文 参考訳(メタデータ) (2021-09-15T08:32:20Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。