論文の概要: Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers
- arxiv url: http://arxiv.org/abs/2403.02579v1
- Date: Tue, 5 Mar 2024 01:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:26:45.759984
- Title: Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers
- Title(参考訳): 変圧器の信号伝搬予測の幾何学的ダイナミクス
- Authors: Aditya Cowsik, Tamra Nebabu, Xiao-Liang Qi, Surya Ganguli
- Abstract要約: 深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
- 参考スコア(独自算出の注目度): 22.25628914395565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate forward signal propagation and gradient back propagation in
deep, randomly initialized transformers, yielding simple necessary and
sufficient conditions on initialization hyperparameters that ensure
trainability of deep transformers. Our approach treats the evolution of the
representations of $n$ tokens as they propagate through the transformer layers
in terms of a discrete time dynamical system of $n$ interacting particles. We
derive simple update equations for the evolving geometry of this particle
system, starting from a permutation symmetric simplex. Our update equations
show that without MLP layers, this system will collapse to a line, consistent
with prior work on rank collapse in transformers. However, unlike prior work,
our evolution equations can quantitatively track particle geometry in the
additional presence of nonlinear MLP layers, and it reveals an order-chaos
phase transition as a function of initialization hyperparameters, like the
strength of attentional and MLP residual connections and weight variances. In
the ordered phase the particles are attractive and collapse to a line, while in
the chaotic phase the particles are repulsive and converge to a regular
$n$-simplex. We analytically derive two Lyapunov exponents: an angle exponent
that governs departures from the edge of chaos in this particle system, and a
gradient exponent that governs the rate of exponential growth or decay of
backpropagated gradients. We show through experiments that, remarkably, the
final test loss at the end of training is well predicted just by these two
exponents at the beginning of training, and that the simultaneous vanishing of
these two exponents yields a simple necessary and sufficient condition to
achieve minimal test loss.
- Abstract(参考訳): 深部変圧器における前方信号伝搬と勾配バック伝搬について検討し, 深部変圧器の訓練性を確保するための初期化ハイパーパラメータの簡易かつ十分な条件を導出する。
我々のアプローチは、$n$相互作用粒子の離散時間力学系の観点から、変換器層を通して伝播する$n$トークンの表現の進化を扱う。
この粒子系の進化する幾何の単純な更新方程式を導出し、置換対称性の単純性から始める。
我々の更新方程式は、MLP層がなければ、このシステムは変圧器のランク崩壊に関する先行研究と整合して一直線に崩壊することを示している。
しかし、従来の研究とは異なり、我々の進化方程式は非線形MLP層の存在下で粒子の幾何を定量的に追跡することができ、注意的およびMLP残差接続の強さや重量分散などの初期化ハイパーパラメータの関数として秩序-カオス相転移を示す。
秩序相では粒子は魅力的で直線に崩壊するが、カオス相では粒子は反発的であり、通常のn$-simplex に収束する。
我々は2つのリアプノフ指数を解析的に導出する: この粒子系におけるカオスの端から逸脱する角度指数と、指数的成長の速度や逆伝播勾配の崩壊を制御する勾配指数である。
実験を通して、トレーニング開始時の2つの指数によって、トレーニング終了時の最終的なテスト損失が十分に予測され、これらの2つの指数の同時消滅が、最小限のテスト損失を達成するのに必要かつ十分な条件をもたらすことを示す。
関連論文リスト
- Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - On optimization of coherent and incoherent controls for two-level
quantum systems [77.34726150561087]
本稿では、閉かつオープンな2レベル量子系の制御問題について考察する。
閉系の力学は、コヒーレント制御を持つシュリンガー方程式によって支配される。
開系の力学はゴリーニ=コサコフスキー=スダルシャン=リンドブラッドのマスター方程式によって支配される。
論文 参考訳(メタデータ) (2022-05-05T09:08:03Z) - A Score-based Geometric Model for Molecular Dynamics Simulations [33.158796937777886]
分子配座のログ密度の勾配を推定する新しいモデルScoreMDを提案する。
複数のアーキテクチャの改善により、MD17とC7O2H10の異性体において最先端のベースラインよりも優れています。
この研究は、新しい物質の加速と薬物発見に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2022-04-19T05:13:46Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Discrete truncated Wigner approach to dynamical phase transitions in
Ising models after a quantum quench [0.0]
量子クエンチ後の横フィールドイジングモデルの定常状態における動的相転移について検討する。
我々は$alpha lesssim 0.5$の同じ指数を見つけ、この状態の動的遷移が非エルゴード平均場極限と同じ普遍性クラスに該当することを示唆する。
論文 参考訳(メタデータ) (2020-04-21T08:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。