論文の概要: ResNets of All Shapes and Sizes: Convergence of Training Dynamics in the Large-scale Limit
- arxiv url: http://arxiv.org/abs/2603.18168v1
- Date: Wed, 18 Mar 2026 18:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.792741
- Title: ResNets of All Shapes and Sizes: Convergence of Training Dynamics in the Large-scale Limit
- Title(参考訳): 全形状と大きさのResNet:大規模限界におけるトレーニングダイナミクスの収束
- Authors: Louis-Pierre Chaintron, Lénaïc Chizat, Javier Maas,
- Abstract要約: 我々は、残留ニューラルネットワーク(ResNets)のトレーニング力学を、その合同無限深さL、隠れ幅M、埋め込み次元D限界に収束させる。
この研究は、[Chi25]で開始されたプログラムを完了し、固定埋め込み次元Dに対して、トレーニングダイナミクスが平均ODEモデルに収束することを証明した。
- 参考スコア(独自算出の注目度): 11.482815450838887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We establish convergence of the training dynamics of residual neural networks (ResNets) to their joint infinite depth L, hidden width M, and embedding dimension D limit. Specifically, we consider ResNets with two-layer perceptron blocks in the maximal local feature update (MLU) regime and prove that, after a bounded number of training steps, the error between the ResNet and its large-scale limit is O(1/L + sqrt(D/(L M)) + 1/sqrt(D)). This error rate is empirically tight when measured in embedding space. For a budget of P = Theta(L M D) parameters, this yields a convergence rate O(P^(-1/6)) for the scalings of (L, M, D) that minimize the bound. Our analysis exploits in an essential way the depth-two structure of residual blocks and applies formally to a broad class of state-of-the-art architectures, including Transformers with bounded key-query dimension. From a technical viewpoint, this work completes the program initiated in the companion paper [Chi25] where it is proved that for a fixed embedding dimension D, the training dynamics converges to a Mean ODE dynamics at rate O(1/L + sqrt(D)/sqrt(L M)). Here, we study the large-D limit of this Mean ODE model and establish convergence at rate O(1/sqrt(D)), yielding the above bound by a triangle inequality. To handle the rich probabilistic structure of the limit dynamics and obtain one of the first rigorous quantitative convergence for a DMFT-type limit, we combine the cavity method with propagation of chaos arguments at a functional level on so-called skeleton maps, which express the weight updates as functions of CLT-type sums from the past.
- Abstract(参考訳): 我々は、残留ニューラルネットワーク(ResNets)のトレーニング力学を、その合同無限深さL、隠れ幅M、埋め込み次元D限界に収束させる。
具体的には、最大局所特徴更新(MLU)方式で2層パーセプトロンブロックを持つResNetについて検討し、制限回数が制限された後、ResNetとその大規模極限の誤差がO(1/L + sqrt(D/(L M)) + 1/sqrt(D))であることを証明する。
この誤差率は、埋め込み空間で測定された場合、経験的に厳密である。
P = Theta(L M D) パラメータの予算に対して、これは境界を最小化する (L, M, D) のスケーリングに対する収束率 O(P^(-1/6)) を与える。
我々の分析は,残差ブロックの深さ2構造を基本的手法で利用し,有界なキー-クエリ次元を持つトランスフォーマーを含む,最先端アーキテクチャの幅広いクラスに形式的に適用する。
技術的な観点から、この研究は[Chi25]で開始されたプログラムを完了し、固定埋め込み次元Dに対して、トレーニングダイナミクスがO(1/L + sqrt(D)/sqrt(L M))で平均ODEダイナミクスに収束することを証明した。
ここでは、この平均ODEモデルの大域的なD限界を調べ、O(1/sqrt(D))で収束を確立し、上記の境界を三角形の不等式で求める。
DMFT型リミットの最初の厳密な量収束の1つとして,このキャビティ法とカオス引数の関数レベルでの伝播を,従来のCTT型リミットの関数として表現したいわゆるスケルトンマップ上で組み合わせた。
関連論文リスト
- Provable FDR Control for Deep Feature Selection: Deep MLPs and Beyond [0.0]
深層ニューラルネットワークに基づくフレキシブルな特徴選択フレームワークを開発し,FDR(False discovery rate)を概ね制御する。
勾配に基づく特徴ベクトルの各座標は、限界正規近似を許容し、FDR制御の有効性を支持することを示す。
論文 参考訳(メタデータ) (2025-12-04T11:46:06Z) - The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagrams [15.246178589173523]
大深度残差ネットワーク(ResNets)の勾配に基づくトレーニングについて検討する。
可変深さ$L$,固定埋め込み寸法$D$,任意の隠れ幅$M$で、トレーニングダイナミクスはニューラル平均ODEトレーニングダイナミクスに収束することを示す。
論文 参考訳(メタデータ) (2025-09-12T11:51:44Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Machine Learning For Elliptic PDEs: Fast Rate Generalization Bound,
Neural Scaling Law and Minimax Optimality [11.508011337440646]
楕円偏微分方程式(PDE)をランダムサンプルから解くための深層学習手法の統計的限界について検討する。
この問題を単純化するために、ディリクレ境界条件がゼロのハイパーキューブ上のシュル・オーディンガー方程式(英語版)という楕円型PDEのプロトタイプに焦点をあてる。
両手法の上限値と下限値を確立し,この問題に対して同時に開発された上限値を改善する。
論文 参考訳(メタデータ) (2021-10-13T17:26:31Z) - ResNet-LDDMM: Advancing the LDDMM Framework Using Deep Residual Networks [86.37110868126548]
本研究では,eulerの離散化スキームに基づく非定常ode(フロー方程式)の解法として,深層残留ニューラルネットワークを用いた。
複雑なトポロジー保存変換の下での3次元形状の多種多様な登録問題について述べる。
論文 参考訳(メタデータ) (2021-02-16T04:07:13Z) - A Dynamical Central Limit Theorem for Shallow Neural Networks [48.66103132697071]
平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
論文 参考訳(メタデータ) (2020-08-21T18:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。