Fugu-MT 論文翻訳(概要): Geometric Dynamics of Signal Propagation Predict Trainability of Transformers

論文の概要: Geometric Dynamics of Signal Propagation Predict Trainability of Transformers

arxiv url: http://arxiv.org/abs/2403.02579v1
Date: Tue, 5 Mar 2024 01:30:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 16:26:45.759984
Title: Geometric Dynamics of Signal Propagation Predict Trainability of Transformers
Title（参考訳）: 変圧器の信号伝搬予測の幾何学的ダイナミクス
Authors: Aditya Cowsik, Tamra Nebabu, Xiao-Liang Qi, Surya Ganguli
Abstract要約: 深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
参考スコア（独自算出の注目度）: 22.25628914395565
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We investigate forward signal propagation and gradient back propagation in deep, randomly initialized transformers, yielding simple necessary and sufficient conditions on initialization hyperparameters that ensure trainability of deep transformers. Our approach treats the evolution of the representations of $n$ tokens as they propagate through the transformer layers in terms of a discrete time dynamical system of $n$ interacting particles. We derive simple update equations for the evolving geometry of this particle system, starting from a permutation symmetric simplex. Our update equations show that without MLP layers, this system will collapse to a line, consistent with prior work on rank collapse in transformers. However, unlike prior work, our evolution equations can quantitatively track particle geometry in the additional presence of nonlinear MLP layers, and it reveals an order-chaos phase transition as a function of initialization hyperparameters, like the strength of attentional and MLP residual connections and weight variances. In the ordered phase the particles are attractive and collapse to a line, while in the chaotic phase the particles are repulsive and converge to a regular $n$-simplex. We analytically derive two Lyapunov exponents: an angle exponent that governs departures from the edge of chaos in this particle system, and a gradient exponent that governs the rate of exponential growth or decay of backpropagated gradients. We show through experiments that, remarkably, the final test loss at the end of training is well predicted just by these two exponents at the beginning of training, and that the simultaneous vanishing of these two exponents yields a simple necessary and sufficient condition to achieve minimal test loss.
Abstract（参考訳）: 深部変圧器における前方信号伝搬と勾配バック伝搬について検討し, 深部変圧器の訓練性を確保するための初期化ハイパーパラメータの簡易かつ十分な条件を導出する。我々のアプローチは、$n$相互作用粒子の離散時間力学系の観点から、変換器層を通して伝播する$n$トークンの表現の進化を扱う。この粒子系の進化する幾何の単純な更新方程式を導出し、置換対称性の単純性から始める。我々の更新方程式は、MLP層がなければ、このシステムは変圧器のランク崩壊に関する先行研究と整合して一直線に崩壊することを示している。しかし、従来の研究とは異なり、我々の進化方程式は非線形MLP層の存在下で粒子の幾何を定量的に追跡することができ、注意的およびMLP残差接続の強さや重量分散などの初期化ハイパーパラメータの関数として秩序-カオス相転移を示す。秩序相では粒子は魅力的で直線に崩壊するが、カオス相では粒子は反発的であり、通常のn$-simplex に収束する。我々は2つのリアプノフ指数を解析的に導出する: この粒子系におけるカオスの端から逸脱する角度指数と、指数的成長の速度や逆伝播勾配の崩壊を制御する勾配指数である。実験を通して、トレーニング開始時の2つの指数によって、トレーニング終了時の最終的なテスト損失が十分に予測され、これらの2つの指数の同時消滅が、最小限のテスト損失を達成するのに必要かつ十分な条件をもたらすことを示す。

関連論文リスト

Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
Mechanistic Insights into Grokking from the Embedding Layer [15.676058752772287]
ニューラルネットワークの遅延一般化であるGrokkingは、トランスフォーマーやスタタネートで観測されているが、それを駆動するコンポーネントはまだ探索されていない。埋め込みはグルーキングの中心であり、インプットの導入はモジュラー演算タスクにおける遅延一般化を誘導する。我々の手法はグルーキング力学を改良するだけでなく、バイ線形相互作用が効率的なトレーニングを妨げるトランスフォーマー最適化の幅広い課題にまで拡張する。
論文参考訳（メタデータ） (2025-05-21T15:12:34Z)
Digital quantum simulation of the Su-Schrieffer-Heeger model using a parameterized quantum circuit [1.4998308221771977]
パラメータ化量子回路を用いてSu-Schrieffer-Heegerモデルのディジタル量子シミュレーションを行う。エネルギー・絡み合いエントロピー・相互情報の非自明な基底状態への進化について検討する。
論文参考訳（メタデータ） (2025-04-10T06:54:10Z)
A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文参考訳（メタデータ） (2025-01-30T13:04:54Z)
Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文参考訳（メタデータ） (2024-10-12T17:50:58Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文参考訳（メタデータ） (2023-08-31T17:57:50Z)
Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文参考訳（メタデータ） (2023-06-06T09:12:49Z)
On optimization of coherent and incoherent controls for two-level quantum systems [77.34726150561087]
本稿では、閉かつオープンな2レベル量子系の制御問題について考察する。閉系の力学は、コヒーレント制御を持つシュリンガー方程式によって支配される。開系の力学はゴリーニ=コサコフスキー=スダルシャン=リンドブラッドのマスター方程式によって支配される。
論文参考訳（メタデータ） (2022-05-05T09:08:03Z)
A Score-based Geometric Model for Molecular Dynamics Simulations [33.158796937777886]
分子配座のログ密度の勾配を推定する新しいモデルScoreMDを提案する。複数のアーキテクチャの改善により、MD17とC7O2H10の異性体において最先端のベースラインよりも優れています。この研究は、新しい物質の加速と薬物発見に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2022-04-19T05:13:46Z)
The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations, and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文参考訳（メタデータ） (2021-07-19T20:18:57Z)
Discrete truncated Wigner approach to dynamical phase transitions in Ising models after a quantum quench [0.0]
量子クエンチ後の横フィールドイジングモデルの定常状態における動的相転移について検討する。我々は$alpha lesssim 0.5$の同じ指数を見つけ、この状態の動的遷移が非エルゴード平均場極限と同じ普遍性クラスに該当することを示唆する。
論文参考訳（メタデータ） (2020-04-21T08:20:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。