論文の概要: Disentangling Feature Structure: A Mathematically Provable Two-Stage Training Dynamics in Transformers
- arxiv url: http://arxiv.org/abs/2502.20681v1
- Date: Fri, 28 Feb 2025 03:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:21.239315
- Title: Disentangling Feature Structure: A Mathematically Provable Two-Stage Training Dynamics in Transformers
- Title(参考訳): 異方性特徴構造:変圧器における数学的に予測可能な2段階トレーニングダイナミクス
- Authors: Zixuan Gong, Jiaye Teng, Yong Liu,
- Abstract要約: 本稿では, 変圧器においてこのような2段階のトレーニング力学がどのように起こるかを理論的に示す。
最もよく知られているのは、トランスにおける2段階最適化プロセスに関して、これが最初の厳密な結果である。
- 参考スコア(独自算出の注目度): 14.775485895006323
- License:
- Abstract: Transformers may exhibit two-stage training dynamics during the real-world training process. For instance, when training GPT-2 on the Counterfact dataset, the answers progress from syntactically incorrect to syntactically correct to semantically correct. However, existing theoretical analyses hardly account for this two-stage phenomenon. In this paper, we theoretically demonstrate how such two-stage training dynamics occur in transformers. Specifically, we analyze the dynamics of transformers using feature learning techniques under in-context learning regimes, based on a disentangled two-type feature structure. Such disentanglement of feature structure is general in practice, e.g., natural languages contain syntax and semantics, and proteins contain primary and secondary structures. To our best known, this is the first rigorous result regarding a two-stage optimization process in transformers. Additionally, a corollary indicates that such a two-stage process is closely related to the spectral properties of the attention weights, which accords well with empirical findings.
- Abstract(参考訳): トランスフォーマーは、現実世界のトレーニングプロセス中に2段階のトレーニングダイナミクスを示すことができる。
例えば、CounterfactデータセットでGPT-2をトレーニングする場合、回答は構文的に正しくないものから構文的に正しいものへと進化する。
しかし、既存の理論分析はこの2段階の現象をほとんど考慮していない。
本稿では, 変圧器にこのような2段階のトレーニングダイナミクスが生じることを理論的に示す。
具体的には、非絡み合った2種類の特徴構造に基づいて、文脈内学習体制下での特徴学習技術を用いてトランスフォーマーのダイナミクスを解析する。
例えば、自然言語は構文と意味論を含み、タンパク質は一次構造と二次構造を含んでいる。
最もよく知られているのは、トランスにおける2段階最適化プロセスに関して、これが最初の厳密な結果である。
さらに、この2段階の過程が、経験的発見とよく一致する注意重みのスペクトル特性と密接に関連していることを示している。
関連論文リスト
- Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - How Transformers Get Rich: Approximation and Dynamics Analysis [11.789846138681359]
我々は、トランスフォーマーが誘導ヘッドをどのように実装するかの近似と動的解析の両方を提供する。
Em近似解析では、標準および一般化誘導ヘッド機構の両方を定式化する。
本研究では, 4-gram と 2-gram 成分からなる合成混合ターゲット上でのトレーニング力学について検討した。
論文 参考訳(メタデータ) (2024-10-15T10:22:27Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。