論文の概要: Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers
- arxiv url: http://arxiv.org/abs/2403.02579v1
- Date: Tue, 5 Mar 2024 01:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:26:45.759984
- Title: Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers
- Title(参考訳): 変圧器の信号伝搬予測の幾何学的ダイナミクス
- Authors: Aditya Cowsik, Tamra Nebabu, Xiao-Liang Qi, Surya Ganguli
- Abstract要約: 深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
- 参考スコア(独自算出の注目度): 22.25628914395565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate forward signal propagation and gradient back propagation in
deep, randomly initialized transformers, yielding simple necessary and
sufficient conditions on initialization hyperparameters that ensure
trainability of deep transformers. Our approach treats the evolution of the
representations of $n$ tokens as they propagate through the transformer layers
in terms of a discrete time dynamical system of $n$ interacting particles. We
derive simple update equations for the evolving geometry of this particle
system, starting from a permutation symmetric simplex. Our update equations
show that without MLP layers, this system will collapse to a line, consistent
with prior work on rank collapse in transformers. However, unlike prior work,
our evolution equations can quantitatively track particle geometry in the
additional presence of nonlinear MLP layers, and it reveals an order-chaos
phase transition as a function of initialization hyperparameters, like the
strength of attentional and MLP residual connections and weight variances. In
the ordered phase the particles are attractive and collapse to a line, while in
the chaotic phase the particles are repulsive and converge to a regular
$n$-simplex. We analytically derive two Lyapunov exponents: an angle exponent
that governs departures from the edge of chaos in this particle system, and a
gradient exponent that governs the rate of exponential growth or decay of
backpropagated gradients. We show through experiments that, remarkably, the
final test loss at the end of training is well predicted just by these two
exponents at the beginning of training, and that the simultaneous vanishing of
these two exponents yields a simple necessary and sufficient condition to
achieve minimal test loss.
- Abstract(参考訳): 深部変圧器における前方信号伝搬と勾配バック伝搬について検討し, 深部変圧器の訓練性を確保するための初期化ハイパーパラメータの簡易かつ十分な条件を導出する。
我々のアプローチは、$n$相互作用粒子の離散時間力学系の観点から、変換器層を通して伝播する$n$トークンの表現の進化を扱う。
この粒子系の進化する幾何の単純な更新方程式を導出し、置換対称性の単純性から始める。
我々の更新方程式は、MLP層がなければ、このシステムは変圧器のランク崩壊に関する先行研究と整合して一直線に崩壊することを示している。
しかし、従来の研究とは異なり、我々の進化方程式は非線形MLP層の存在下で粒子の幾何を定量的に追跡することができ、注意的およびMLP残差接続の強さや重量分散などの初期化ハイパーパラメータの関数として秩序-カオス相転移を示す。
秩序相では粒子は魅力的で直線に崩壊するが、カオス相では粒子は反発的であり、通常のn$-simplex に収束する。
我々は2つのリアプノフ指数を解析的に導出する: この粒子系におけるカオスの端から逸脱する角度指数と、指数的成長の速度や逆伝播勾配の崩壊を制御する勾配指数である。
実験を通して、トレーニング開始時の2つの指数によって、トレーニング終了時の最終的なテスト損失が十分に予測され、これらの2つの指数の同時消滅が、最小限のテスト損失を達成するのに必要かつ十分な条件をもたらすことを示す。
関連論文リスト
- Transolver: A Fast Transformer Solver for PDEs on General Geometries [71.68821482043067]
本稿では, 離散化された測地の背後に隠れた本質的な物理状態を学習するTransolverについて述べる。
スライスから符号化された物理認識トークンに注意を向けることで、Transovlerは複雑な物理的相関を効果的に捉えることができる。
Transolverは6つの標準ベンチマークで22%の相対的な利得で一貫した最先端を実現し、大規模産業シミュレーションでも優れている。
論文 参考訳(メタデータ) (2024-02-04T06:37:38Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Simulating scalar field theories on quantum computers with limited
resources [62.997667081978825]
量子ビットコンピュータ上での格子スカラー場理論を実装するための量子アルゴリズムを提案する。
このアルゴリズムは、通常の対称性相と壊れた対称性相の両方において、幅広い入力パラメータの効率的な$phi4$状態の準備を可能にする。
論文 参考訳(メタデータ) (2022-10-14T17:28:15Z) - A DeepParticle method for learning and generating aggregation patterns
in multi-dimensional Keller-Segel chemotaxis systems [3.6184545598911724]
ケラー・セガル (KS) ケモタキシー系の2次元および3次元における凝集パターンと近傍特異解の正則化相互作用粒子法について検討した。
さらに,物理パラメータの異なる解を学習し,生成するためのDeepParticle (DP) 法を開発した。
論文 参考訳(メタデータ) (2022-08-31T20:52:01Z) - On optimization of coherent and incoherent controls for two-level
quantum systems [77.34726150561087]
本稿では、閉かつオープンな2レベル量子系の制御問題について考察する。
閉系の力学は、コヒーレント制御を持つシュリンガー方程式によって支配される。
開系の力学はゴリーニ=コサコフスキー=スダルシャン=リンドブラッドのマスター方程式によって支配される。
論文 参考訳(メタデータ) (2022-05-05T09:08:03Z) - A Score-based Geometric Model for Molecular Dynamics Simulations [33.158796937777886]
分子配座のログ密度の勾配を推定する新しいモデルScoreMDを提案する。
複数のアーキテクチャの改善により、MD17とC7O2H10の異性体において最先端のベースラインよりも優れています。
この研究は、新しい物質の加速と薬物発見に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2022-04-19T05:13:46Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Spectral Analysis of Product Formulas for Quantum Simulation [0.0]
本研究では,大規模なシステムに対して,$epsilon$から$epsilon1/2$へのスケーリングにおいて,精度の高いエネルギー固有値を推定するために必要なトロッターステップサイズを改善することができることを示す。
結果は部分的にダイアバティックなプロセスに一般化され、このプロセスはスペクトルの残りの部分からギャップによって分離された狭いエネルギーバンドに留まる。
論文 参考訳(メタデータ) (2021-02-25T03:17:25Z) - Discrete truncated Wigner approach to dynamical phase transitions in
Ising models after a quantum quench [0.0]
量子クエンチ後の横フィールドイジングモデルの定常状態における動的相転移について検討する。
我々は$alpha lesssim 0.5$の同じ指数を見つけ、この状態の動的遷移が非エルゴード平均場極限と同じ普遍性クラスに該当することを示唆する。
論文 参考訳(メタデータ) (2020-04-21T08:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。