論文の概要: The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagrams
- arxiv url: http://arxiv.org/abs/2509.10167v1
- Date: Fri, 12 Sep 2025 11:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.072791
- Title: The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagrams
- Title(参考訳): 深部ResNetの隠れ幅:タイトエラー境界と位相図
- Authors: Lénaïc Chizat,
- Abstract要約: 大深度残差ネットワーク(ResNets)の勾配に基づくトレーニングについて検討する。
可変深さ$L$,固定埋め込み寸法$D$,任意の隠れ幅$M$で、トレーニングダイナミクスはニューラル平均ODEトレーニングダイナミクスに収束することを示す。
- 参考スコア(独自算出の注目度): 15.246178589173523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the gradient-based training of large-depth residual networks (ResNets) from standard random initializations. We show that with a diverging depth $L$, a fixed embedding dimension $D$, and an arbitrary hidden width $M$, the training dynamics converges to a Neural Mean ODE training dynamics. Remarkably, the limit is independent of the scaling of $M$, covering practical cases of, say, Transformers, where $M$ (the number of hidden units or attention heads per layer) is typically of the order of $D$. For a residual scale $\Theta_D\big(\frac{\alpha}{LM}\big)$, we obtain the error bound $O_D\big(\frac{1}{L}+ \frac{\alpha}{\sqrt{LM}}\big)$ between the model's output and its limit after a fixed number gradient of steps, and we verify empirically that this rate is tight. When $\alpha=\Theta(1)$, the limit exhibits complete feature learning, i.e. the Mean ODE is genuinely non-linearly parameterized. In contrast, we show that $\alpha \to \infty$ yields a \lazy ODE regime where the Mean ODE is linearly parameterized. We then focus on the particular case of ResNets with two-layer perceptron blocks, for which we study how these scalings depend on the embedding dimension $D$. We show that for this model, the only residual scale that leads to complete feature learning is $\Theta\big(\frac{\sqrt{D}}{LM}\big)$. In this regime, we prove the error bound $O\big(\frac{1}{L}+ \frac{\sqrt{D}}{\sqrt{LM}}\big)$ between the ResNet and its limit after a fixed number of gradient steps, which is also empirically tight. Our convergence results rely on a novel mathematical perspective on ResNets : (i) due to the randomness of the initialization, the forward and backward pass through the ResNet behave as the stochastic approximation of certain mean ODEs, and (ii) by propagation of chaos (that is, asymptotic independence of the units) this behavior is preserved through the training dynamics.
- Abstract(参考訳): 本研究では,大深度残差ネットワーク(ResNet)の標準乱数初期化による勾配に基づくトレーニングについて検討する。
可変深さ$L$,固定埋め込み寸法$D$,任意の隠れ幅$M$で、トレーニングダイナミクスはニューラル平均ODEトレーニングダイナミクスに収束することを示す。
注目すべきは、この制限は$M$のスケーリングとは無関係で、例えばTransformersの実践的なケースでは、$M$(隠されたユニット数またはレイヤ毎のアテンションヘッド数)は通常$D$のオーダーである。
残留スケール $\Theta_D\big(\frac{\alpha}{LM}\big)$ に対して、モデルの出力とステップの固定数勾配の後の極限の間の誤差境界 $O_D\big(\frac{1}{L}+ \frac{\alpha}{\sqrt{LM}}\big)$ を得る。
$\alpha=\Theta(1)$ の場合、この極限は完全な特徴学習、すなわち平均ODE は真に非線型パラメータ化される。
対照的に、$\alpha \to \infty$ は、平均ODE が線型パラメータ化されるような \lazy ODE 状態をもたらすことを示す。
次に、2層パーセプトロンブロックを持つResNetsの特定のケースに焦点を当て、これらのスケーリングがどのようにして$D$の埋め込み次元に依存するかを研究する。
このモデルでは、完全な特徴学習につながる唯一の残留スケールが$\Theta\big(\frac{\sqrt{D}}{LM}\big)$であることを示す。
この状態において、ResNet とその極限の間の誤差境界 $O\big(\frac{1}{L}+ \frac{\sqrt{D}}{\sqrt{LM}}\big)$ を、固定された勾配ステップの後に証明する。
我々の収束結果はResNetsにおける新しい数学的視点に依存している。
i)初期化のランダム性のため、ResNetの前後通過は、ある平均ODEの確率近似として振る舞う。
(II)カオスの伝播(すなわち単位の漸近的独立)により、この挙動は訓練力学を通して保存される。
関連論文リスト
- Linear regression with overparameterized linear neural networks: Tight upper and lower bounds for implicit $\ell^1$-regularization [3.902441198412341]
過パラメータ線形回帰問題に対する深度Dge 2$の対角線形ニューラルネットワークの暗黙正則化について検討した。
D ge 3$ の場合、誤差は$alpha$ で線形的に減少するが、$D=2$ の場合、$alpha1-varrho$ で減少する。
数値実験は、我々の理論的な発見を裏付け、より深いネットワーク、すなわち$D ge 3$がより良い一般化をもたらすことを示唆している。
論文 参考訳(メタデータ) (2025-06-01T19:55:31Z) - Uncertainty Quantification From Scaling Laws in Deep Neural Networks [0.0]
機械学習の分析から不確かさを定量化することは、物理科学での使用に不可欠である。
平均$mu_mathcalL$と分散$sigma_mathcalL$を多層パーセプトロンのアンサンブルとして計算する。
我々は、MNIST分類、CIFAR分類、カロリーメータエネルギー回帰の3つの課題について、有限幅ネットワークの結果と経験的に比較した。
論文 参考訳(メタデータ) (2025-03-07T21:15:11Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks [8.716913598251386]
類似した微分方程式に基づく2種類の不整形ネットワークのキャラクタリゼーションを求める。
我々は第1次補正を階層的相関に導出する。
これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供する。
論文 参考訳(メタデータ) (2023-10-18T16:15:10Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。