論文の概要: Training Infinitely Deep and Wide Transformers
- arxiv url: http://arxiv.org/abs/2605.17660v1
- Date: Sun, 17 May 2026 21:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.304794
- Title: Training Infinitely Deep and Wide Transformers
- Title(参考訳): 無限深度変圧器の訓練
- Authors: Raphaël Barboni, Maarten V. de Hoop, Takashi Furuya, Gabriel Peyré,
- Abstract要約: 本稿では、平均場状態における変圧器の勾配に基づく訓練を厳格に分析するための枠組みを開発する。
条件付きワッサーシュタイン計量空間における勾配流曲線の存在と特異性を証明する。
重要な技術的貢献は、ニューラル・タンジェント・カーネルの注入に必要な十分な条件を提供することである。
- 参考スコア(独自算出の注目度): 27.784304430081622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the dominant architecture in modern machine learning, yet the theoretical understanding of their training dynamics remains limited. This paper develops a rigorous mathematical framework for analyzing gradient-based training of transformers in the mean-field regime, where both the depth (number of layers) and width (number of attention heads) tend to infinity. While ResNet training can be understood as controlling a neural ODE, transformer training corresponds to controlling a neural PDE, due to the coupling of multiple token distributions through the attention mechanism. Our mean-field model features two types of measure representations: token distributions evolving through layers and attention parameters at each layer. We establish well-posedness of the forward pass through infinitely deep transformers, characterizing token evolution via flow maps that satisfy ODEs in function spaces. Using adjoint sensitivity analysis, we derive an explicit formula for the conditional Wasserstein gradient of the training risk, involving adjoint variables governed by backward ODEs. We prove the existence and uniqueness of gradient flow curves in the conditional Wasserstein metric space, establishing a rigorous foundation for gradient-based transformer training. A key technical contribution is providing necessary and sufficient conditions for injectivity of the Neural Tangent Kernel (NTK) for attention mechanisms: we show that NTK injectivity is equivalent to linear independence of log-sum-exp functions modulo affine functions, a condition satisfied by diverse token distributions, including discrete distributions, uniform distributions, and Gaussian mixtures. Under this NTK injectivity assumption, we prove that gradient flow converges to global minima when the initial loss is sufficiently small, eliminating spurious local minima from the optimization landscape.
- Abstract(参考訳): トランスフォーマーは現代の機械学習において支配的なアーキテクチャとなっているが、そのトレーニング力学の理論的理解は依然として限られている。
本稿では,平均場状態における変圧器の勾配に基づくトレーニングを解析するための厳密な数学的枠組みを構築し,深さ(層数)と幅(注目ヘッド数)の両方が無限大となる傾向がある。
ResNetトレーニングは、ニューラルODEを制御するものとして理解することができるが、Transformerトレーニングは、アテンションメカニズムを通じて複数のトークン分布が結合されているため、ニューラルPDEを制御することに対応する。
我々の平均場モデルは2種類の測度表現を特徴付けている。
我々は,関数空間内のODEを満たすフローマップを介し,トークンの進化を特徴付けることにより,前方通過を無限深変圧器を通して適切に設定する。
随伴感度解析を用いて、後向きODEによって支配される随伴変数を含む訓練リスクの条件付きワッサースタイン勾配の明示的な式を導出する。
条件付きワッサーシュタイン計量空間における勾配流曲線の存在と特異性を証明し、勾配に基づく変圧器訓練のための厳密な基礎を確立する。
NTKインジェクティビティは, 離散分布, 均一分布, ガウス混合を含む多種多様なトークン分布で満たされる対数-sum-exp関数の線形独立性に等価であることを示す。
このNTKインジェクティビティ仮定の下では、初期損失が十分に小さいとき、勾配流が大域的ミニマに収束することが証明され、最適化ランドスケープから急激な局所ミニマが排除される。
関連論文リスト
- Physics-informed neural particle flow for the Bayesian update step [0.8220217498103312]
本稿では,物理インフォームド・ニューラル粒子フローを提案する。
制御偏微分方程式(PDE)を損失関数に埋め込むことで、ニューラルネットワークをトレーニングして輸送速度場を近似する。
ニューラルネットワークのパラメータ化は暗黙の正則化器として機能し,解析フローに固有の剛性を緩和することを示した。
論文 参考訳(メタデータ) (2026-02-26T15:10:45Z) - Flow matching Operators for Residual-Augmented Probabilistic Learning of Partial Differential Equations [0.5729426778193397]
無限次元関数空間におけるフローマッチングを定式化し、確率的輸送を学習する。
本研究では,フローマッチングベクトル場に対する特徴量線形変調に基づく条件付きニューラル演算子アーキテクチャを開発する。
提案手法は,解演算子を様々な解像度と忠実度で正確に学習できることを示す。
論文 参考訳(メタデータ) (2025-12-14T16:06:10Z) - Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。
本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:53:58Z) - Ultra-fast feature learning for the training of two-layer neural networks in the two-timescale regime [26.47265060394168]
本研究では,平均場隠れ型ニューラルネットワークの学習方法の収束について検討する。
本研究では,教師の特徴分布の抽出に有効な収束率を実現する戦略を提案する。
論文 参考訳(メタデータ) (2025-04-25T09:40:10Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。