論文の概要: From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics
- arxiv url: http://arxiv.org/abs/2510.06954v1
- Date: Wed, 08 Oct 2025 12:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.490537
- Title: From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics
- Title(参考訳): 凝縮からランク崩壊へ:トランスフォーマートレーニングダイナミクスの2段階解析
- Authors: Zheng-An Chen, Tao Luo,
- Abstract要約: 我々は勾配流解析フレームワークを用いて線形化トランスフォーマーのトレーニング力学を体系的に研究する。
我々の理論的解析は、注意モジュールの力学を2つの異なる段階に分解する。
- 参考スコア(独自算出の注目度): 3.247992990696076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although transformer-based models have shown exceptional empirical performance, the fundamental principles governing their training dynamics are inadequately characterized beyond configuration-specific studies. Inspired by empirical evidence showing improved reasoning capabilities under small initialization scales in language models, we employ the gradient flow analytical framework established in [Zhou et al. NeurIPS 2022] to systematically investigate linearized Transformer training dynamics. Our theoretical analysis dissects the dynamics of attention modules into two distinct stages. In the first stage, asymmetric weight perturbations from random initialization sustain non-degenerate gradient dynamics in parameter matrices, facilitating systematic escape from small initialization regimes. Subsequently, these matrices undergo condensation, progressively aligning toward the target orientation. In the second stage, the previously static key-query matrices actively participate in training, driving the normalized matrices toward asymptotic rank collapse. This two-stage framework generalizes classical directional convergence results.
- Abstract(参考訳): トランスフォーマーベースのモデルは例外的な経験的性能を示しているが、それらのトレーニング力学を規定する基本的な原理は、構成固有の研究を超えて不適切に特徴づけられている。
そこで我々は[Zhou et al NeurIPS 2022]で確立された勾配流解析フレームワークを用いて線形化トランスフォーマーの訓練力学を体系的に研究する。
我々の理論的解析は、注意モジュールの力学を2つの異なる段階に分解する。
第一段階では、ランダム初期化による非対称な重みの摂動はパラメータ行列の非退化勾配のダイナミクスを保ち、小さな初期化規則から体系的に脱出する。
その後、これらの行列は凝縮を受け、徐々に目標方向に向かって整列する。
第2段階では、それまで静的なキークリー行列はトレーニングに積極的に参加し、正規化された行列を漸近的なランク崩壊へと駆り立てる。
この2段階のフレームワークは古典的な方向収束結果を一般化する。
関連論文リスト
- Understanding Post-Training Structural Changes in Large Language Models [3.054513120350576]
後学習は大規模言語モデル(LLM)の振る舞いを根本的に変える
本研究は,指導チューニングと長鎖蒸留(Long-CoT)の2つの広く採用されているポストトレーニング手法に焦点をあてる。
論文 参考訳(メタデータ) (2025-09-22T15:03:36Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Training Dynamics of In-Context Learning in Linear Attention [6.663503238373593]
In-context linear regression のために訓練されたマルチヘッド線形自己アテンションの勾配勾配勾配ダイナミクスについて検討した。
線形アテンションの勾配降下訓練中にICLの能力がどのように進化するかを理論的に記述する。
論文 参考訳(メタデータ) (2025-01-27T18:03:00Z) - Stability properties of gradient flow dynamics for the symmetric low-rank matrix factorization problem [22.648448759446907]
多くの学習課題において,低ランク因子化がビルディングブロックとして機能することを示す。
ダイナミクスの局所的な探索部分に関連する軌跡の形状に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2024-11-24T20:05:10Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。