論文の概要: Uniform Scaling Limits in AdamW-Trained Transformers
- arxiv url: http://arxiv.org/abs/2605.11059v1
- Date: Mon, 11 May 2026 16:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.334294
- Title: Uniform Scaling Limits in AdamW-Trained Transformers
- Title(参考訳): AdamW-Trained Transformers における一様スケーリング限界
- Authors: William Gibson, Christoph Reisinger,
- Abstract要約: 我々はAdamWで訓練した変圧器の大深度限界について検討した。
隠れ状態とバックプロパゲート変数のジョイントダイナミクスが$L2$に収束することを証明している。
- 参考スコア(独自算出の注目度): 0.21485350418225238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the large-depth limit of transformers trained with AdamW, by modelling the hidden-state dynamics as an interacting particle system (IPS) coupled through the attention mechanism. Under appropriate scaling of the attention heads, we prove that the joint dynamics of the hidden states and backpropagated variables converge in $L^2$, uniformly over the initial condition, to the solution of a forward--backward system of ODEs at rate $\mathcal O(L^{-1}+L^{-1/3}H^{-1/2})$. Here, $L$ and $H$ denote the depth and number of heads of the transformer, respectively. The limiting system of ODEs can be identified with a McKean--Vlasov ODE (MVODE) when the attention heads do not incorporate causal masking. By using the flow maps associated with this MVODE and applying concentration of measure techniques, we obtain bounds on the difference between the discrete and continuous models that are uniform over compact sets of initial conditions. As this is achieved without resorting to a covering argument, the constants in our bounds are independent of the number of tokens. Furthermore, under a suitable adaptation to AdamW, the bounds become independent of the token embedding dimension.
- Abstract(参考訳): 本研究では,AdamWで訓練した変圧器の深度限界について,注目機構を介して結合された相互作用粒子系 (IPS) として隠れ状態の力学をモデル化することによって検討する。
注意ヘッドの適切なスケーリングの下では、隠蔽状態とバックプロパゲート変数の結合ダイナミクスが、初期条件を均一に上回り、$$\mathcal O(L^{-1}+L^{-1/3}H^{-1/2})$でODEの前方後方系の解に収束することが証明される。
ここで、$L$ と $H$ はそれぞれ変換器の深さと数を表す。
ODEの制限システムは、注意頭が因果マスクを組み込まない場合、McKean-Vlasov ODE (MVODE)と同一視できる。
このMVODEに付随するフローマップを用いて測定手法の集中を適用することにより、初期条件のコンパクトな集合に対して一様である離散モデルと連続モデルとの差について境界を求める。
これは被覆論証に頼らずに達成されるので、我々の境界の定数はトークンの数とは独立である。
さらに、AdamW への適切な適応の下で、境界はトークン埋め込み次元から独立になる。
関連論文リスト
- Comparison of the standard and dressed-picture master equations for the quantum Rabi model in the ultrastrong coupling regime [78.55450146498553]
この章は、超強結合状態における量子ラビモデルに対する緩和と脱落の影響について考察する。
これは、結果の非単体力学を実装し、数値的に解くための明示的な公式を提供する。
論文 参考訳(メタデータ) (2026-04-10T01:22:07Z) - Homogenized Transformers [5.290251602267728]
重みを層や頭部で独立に再サンプリングする多頭部自己注意のランダムモデルについて検討した。
この力学系は, 深さ, 残留段数, および頭部の個数の適切な関節スケーリングの下では, 非自明な限界を許容する。
論文 参考訳(メタデータ) (2026-04-02T12:39:27Z) - ResNets of All Shapes and Sizes: Convergence of Training Dynamics in the Large-scale Limit [11.482815450838887]
我々は、残留ニューラルネットワーク(ResNets)のトレーニング力学を、その合同無限深さL、隠れ幅M、埋め込み次元D限界に収束させる。
この研究は、[Chi25]で開始されたプログラムを完了し、固定埋め込み次元Dに対して、トレーニングダイナミクスが平均ODEモデルに収束することを証明した。
論文 参考訳(メタデータ) (2026-03-18T18:07:02Z) - MambaX: Image Super-Resolution with State Predictive Control [48.76194230142064]
Mambaは、再構築プロセス全体を複数のノードによる状態シーケンスとして表現し、中間的介入を可能にする、有望なアプローチとして登場した。
我々は、連続するスペクトル帯域を潜在状態空間にマッピングする非線形状態予測制御モデル textbfMambaX を作成し、制御方程式の非線形状態パラメータを動的に学習することでSRタスクを一般化した。
本評価では, 単一像SRと多モード融合型SRの両タスクにおいて, 動的スペクトル状態表現モデルの優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-22T11:44:09Z) - Approximation of diffeomorphisms for quantum state transfers [49.1574468325115]
制御理論における2つの新たな視点を組み合わそうとしている。
トーラスに作用するバイリニア型Schr"odinger PDEにおいて、状態遷移を短時間で駆動する制御法則を数値的に見つける。
論文 参考訳(メタデータ) (2025-03-18T17:28:59Z) - Ancilla quantum measurements on interacting chains: Sensitivity of entanglement dynamics to the type and concentration of detectors [46.76612530830571]
我々は、自由度(検出器')に結合した量子多体格子系を考える。
鎖内の密度と絡み合いエントロピーのダイナミクスを、$rho_a$と$M$の様々な値で探求する。
論文 参考訳(メタデータ) (2023-11-21T21:41:11Z) - The Shaped Transformer: Attention Models in the Infinite Depth-and-Width
Limit [38.89510345229949]
本研究では、無限深度と幅の比例極限におけるスキップ接続を持つ修正Softmaxベースのアテンションモデルの共分散行列について検討する。
適切に定義された限界を達成するため、Transformerのアテンション機構は、Softmax出力をアイデンティティに集中させることで変更される。
シミュレーションにより、深さと幅の比で指数付けされた微分方程式(SDE)が、対応する有限サイズモデルの驚くほど良い記述を提供することを示した。
論文 参考訳(メタデータ) (2023-06-30T16:10:36Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。