論文の概要: Global Convergence in Training Large-Scale Transformers
- arxiv url: http://arxiv.org/abs/2410.23610v1
- Date: Thu, 31 Oct 2024 03:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:39.267540
- Title: Global Convergence in Training Large-Scale Transformers
- Title(参考訳): 大規模変圧器訓練におけるグローバル・コンバージェンス
- Authors: Cheng Gao, Yuan Cao, Zihao Li, Yihan He, Mengdi Wang, Han Liu, Jason Matthew Klusowski, Jianqing Fan,
- Abstract要約: 本稿では,重力減衰正則化を用いた変圧器の訓練における勾配流の収束特性を厳密に解析する。
我々の分析は、トランスフォーマーに適応する一連の新しい平均場技術に基づいている。
- 参考スコア(独自算出の注目度): 43.3685424966098
- License:
- Abstract: Despite the widespread success of Transformers across various domains, their optimization guarantees in large-scale model settings are not well-understood. This paper rigorously analyzes the convergence properties of gradient flow in training Transformers with weight decay regularization. First, we construct the mean-field limit of large-scale Transformers, showing that as the model width and depth go to infinity, gradient flow converges to the Wasserstein gradient flow, which is represented by a partial differential equation. Then, we demonstrate that the gradient flow reaches a global minimum consistent with the PDE solution when the weight decay regularization parameter is sufficiently small. Our analysis is based on a series of novel mean-field techniques that adapt to Transformers. Compared with existing tools for deep networks (Lu et al., 2020) that demand homogeneity and global Lipschitz smoothness, we utilize a refined analysis assuming only $\textit{partial homogeneity}$ and $\textit{local Lipschitz smoothness}$. These new techniques may be of independent interest.
- Abstract(参考訳): トランスフォーマーは様々な領域で広く普及しているが、大規模なモデル設定における最適化の保証は十分に理解されていない。
本稿では,重力減衰正則化を用いた変圧器の訓練における勾配流の収束特性を厳密に解析する。
まず,大容量変圧器の平均場限界を構築し,モデル幅と深さが無限大となると,勾配流は偏微分方程式で表されるワッサーシュタイン勾配流に収束することを示す。
そして,重み減衰正則化パラメータが十分に小さい場合,勾配流はPDE解と一致する大域的な最小値に達することを示した。
我々の分析は、トランスフォーマーに適応する一連の新しい平均場技術に基づいている。
深いネットワークのための既存のツール (Lu et al , 2020) がホモジニティと大域リプシッツの滑らかさを要求するのと比較すると、$\textit{partial homogeneity}$と$\textit{local Lipschitz smoothness}$と$\textit{partial homogeneity}$を仮定した洗練された解析を利用する。
これらの新しい技術は独立した関心を持つかもしれない。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - On the Global Convergence of Gradient Descent for multi-layer ResNets in
the mean-field regime [19.45069138853531]
一階法は、グローバル化された体制におけるグローバルな最適性を見出す。
ResNetが十分に大きく、精度と信頼度に応じて深さ幅がある場合、一階法はデータに適合する最適化を見つけることができる。
論文 参考訳(メタデータ) (2021-10-06T17:16:09Z) - Graphical Normalizing Flows [11.23030807455021]
正規化フローは、ベース分布と一連のニューラルネットワークを組み合わせることで複雑な確率分布をモデル化する。
最先端アーキテクチャは、スカラーからベクトルへの可逆関数を持ち上げるために結合と自己回帰変換に依存している。
本稿では,所定あるいは学習可能なグラフィカル構造を持つ新しい非可逆変換であるグラフィカル正規化フローを提案する。
論文 参考訳(メタデータ) (2020-06-03T21:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。