論文の概要: Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis
- arxiv url: http://arxiv.org/abs/2410.09605v1
- Date: Sat, 12 Oct 2024 17:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:35:29.741109
- Title: Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis
- Title(参考訳): 勾配流解析による単語共起認識のための変圧器の訓練力学
- Authors: Hongru Yang, Bhavya Kailkhura, Zhangyang Wang, Yingbin Liang,
- Abstract要約: 本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
- 参考スコア(独自算出の注目度): 97.54180451650122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the training dynamics of transformers is important to explain the impressive capabilities behind large language models. In this work, we study the dynamics of training a shallow transformer on a task of recognizing co-occurrence of two designated words. In the literature of studying training dynamics of transformers, several simplifications are commonly adopted such as weight reparameterization, attention linearization, special initialization, and lazy regime. In contrast, we analyze the gradient flow dynamics of simultaneously training three attention matrices and a linear MLP layer from random initialization, and provide a framework of analyzing such dynamics via a coupled dynamical system. We establish near minimum loss and characterize the attention model after training. We discover that gradient flow serves as an inherent mechanism that naturally divide the training process into two phases. In Phase 1, the linear MLP quickly aligns with the two target signals for correct classification, whereas the softmax attention remains almost unchanged. In Phase 2, the attention matrices and the MLP evolve jointly to enlarge the classification margin and reduce the loss to a near minimum value. Technically, we prove a novel property of the gradient flow, termed \textit{automatic balancing of gradients}, which enables the loss values of different samples to decrease almost at the same rate and further facilitates the proof of near minimum training loss. We also conduct experiments to verify our theoretical results.
- Abstract(参考訳): 変圧器の訓練力学を理解することは、大きな言語モデルの背後にある印象的な能力を説明する上で重要である。
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器の訓練のダイナミクスについて検討する。
変圧器のトレーニング力学の文献では、重み付けパラメータ化、注意線形化、特殊初期化、遅延状態といったいくつかの単純化が一般的である。
対照的に、ランダム初期化から3つの注意行列と線形MLP層を同時に学習する勾配流動力学を解析し、結合力学系を介してそのような力学を解析する枠組みを提供する。
ほぼ最小限の損失を確立し、トレーニング後の注意モデルの特徴付けを行う。
勾配流は、学習過程を2つのフェーズに自然に分割する固有のメカニズムとして機能することを発見した。
フェーズ1では、線形MLPは2つのターゲット信号と迅速に整列して正しい分類を行うが、ソフトマックスの注意はほとんど変わらない。
フェーズ2では、注意行列とMDPは共同で進化し、分類マージンを拡大し、損失を最小限に抑える。
技術的には、勾配流の新たな性質を証明しており、これは、異なるサンプルの損失値がほぼ同じ速度で減少することを可能にし、さらに、ほぼ最小限のトレーニング損失の証明を容易にする。
また、理論的結果を検証する実験も行います。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文 参考訳(メタデータ) (2024-03-05T01:30:34Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape [40.78854925996]
Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。
共通非線形表現や特徴写像は、文脈内学習の力を高めるために利用できることを示す。
論文 参考訳(メタデータ) (2024-02-02T09:29:40Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。