Fugu-MT 論文翻訳(概要): Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis

論文の概要: Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis

arxiv url: http://arxiv.org/abs/2410.09605v1
Date: Sat, 12 Oct 2024 17:50:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 13:35:29.741109
Title: Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis
Title（参考訳）: 勾配流解析による単語共起認識のための変圧器の訓練力学
Authors: Hongru Yang, Bhavya Kailkhura, Zhangyang Wang, Yingbin Liang,
Abstract要約: 本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
参考スコア（独自算出の注目度）: 97.54180451650122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding the training dynamics of transformers is important to explain the impressive capabilities behind large language models. In this work, we study the dynamics of training a shallow transformer on a task of recognizing co-occurrence of two designated words. In the literature of studying training dynamics of transformers, several simplifications are commonly adopted such as weight reparameterization, attention linearization, special initialization, and lazy regime. In contrast, we analyze the gradient flow dynamics of simultaneously training three attention matrices and a linear MLP layer from random initialization, and provide a framework of analyzing such dynamics via a coupled dynamical system. We establish near minimum loss and characterize the attention model after training. We discover that gradient flow serves as an inherent mechanism that naturally divide the training process into two phases. In Phase 1, the linear MLP quickly aligns with the two target signals for correct classification, whereas the softmax attention remains almost unchanged. In Phase 2, the attention matrices and the MLP evolve jointly to enlarge the classification margin and reduce the loss to a near minimum value. Technically, we prove a novel property of the gradient flow, termed \textit{automatic balancing of gradients}, which enables the loss values of different samples to decrease almost at the same rate and further facilitates the proof of near minimum training loss. We also conduct experiments to verify our theoretical results.
Abstract（参考訳）: 変圧器の訓練力学を理解することは、大きな言語モデルの背後にある印象的な能力を説明する上で重要である。本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器の訓練のダイナミクスについて検討する。変圧器のトレーニング力学の文献では、重み付けパラメータ化、注意線形化、特殊初期化、遅延状態といったいくつかの単純化が一般的である。対照的に、ランダム初期化から3つの注意行列と線形MLP層を同時に学習する勾配流動力学を解析し、結合力学系を介してそのような力学を解析する枠組みを提供する。ほぼ最小限の損失を確立し、トレーニング後の注意モデルの特徴付けを行う。勾配流は、学習過程を2つのフェーズに自然に分割する固有のメカニズムとして機能することを発見した。フェーズ1では、線形MLPは2つのターゲット信号と迅速に整列して正しい分類を行うが、ソフトマックスの注意はほとんど変わらない。フェーズ2では、注意行列とMDPは共同で進化し、分類マージンを拡大し、損失を最小限に抑える。技術的には、勾配流の新たな性質を証明しており、これは、異なるサンプルの損失値がほぼ同じ速度で減少することを可能にし、さらに、ほぼ最小限のトレーニング損失の証明を容易にする。また、理論的結果を検証する実験も行います。

関連論文リスト

Mechanistic Insights into Grokking from the Embedding Layer [15.676058752772287]
ニューラルネットワークの遅延一般化であるGrokkingは、トランスフォーマーやスタタネートで観測されているが、それを駆動するコンポーネントはまだ探索されていない。埋め込みはグルーキングの中心であり、インプットの導入はモジュラー演算タスクにおける遅延一般化を誘導する。我々の手法はグルーキング力学を改良するだけでなく、バイ線形相互作用が効率的なトレーニングを妨げるトランスフォーマー最適化の幅広い課題にまで拡張する。
論文参考訳（メタデータ） (2025-05-21T15:12:34Z)
How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文参考訳（メタデータ） (2025-05-02T00:07:35Z)
Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文参考訳（メタデータ） (2025-04-17T13:05:33Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Training Dynamics of In-Context Learning in Linear Attention [6.663503238373593]
In-context linear regression を訓練したマルチヘッド線形自己アテンションの勾配勾配ダイナミクスについて検討した。我々は、線形注意の降下訓練中に、文脈内学習能力がどのように進化するかを特徴付ける。
論文参考訳（メタデータ） (2025-01-27T18:03:00Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
Geometric Dynamics of Signal Propagation Predict Trainability of Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文参考訳（メタデータ） (2024-03-05T01:30:34Z)
Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文参考訳（メタデータ） (2024-02-29T18:43:52Z)
Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape [40.78854925996]
Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。共通非線形表現や特徴写像は、文脈内学習の力を高めるために利用できることを示す。
論文参考訳（メタデータ） (2024-02-02T09:29:40Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。