論文の概要: Uniform-in-Time Weak Propagation-of-Chaos in Shallow Neural Networks
- arxiv url: http://arxiv.org/abs/2605.22010v1
- Date: Thu, 21 May 2026 05:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.103117
- Title: Uniform-in-Time Weak Propagation-of-Chaos in Shallow Neural Networks
- Title(参考訳): 浅層ニューラルネットワークにおける一様時間弱伝播-カオス
- Authors: Margalit Glasgow, Joan Bruna,
- Abstract要約: 我々は、$|f__tMF-f_hat_tm|2 lesssim textpoly(d/)$ニューロン、トレーニングサンプル、GDステップに対する一様時間境界を求める。
平均場、人口移動の収束速度が$t-2$よりも速くなると、$textpoly(d/)$ニューロン、トレーニングサンプル、GDステップで$$が失われる。
- 参考スコア(独自算出の注目度): 37.451796388624864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider one-hidden layer neural networks trained in the feature-learning regime using gradient descent, and relate the output of the finite-width network $f_{\hatρ_t^m}$ to its infinite-width counterpart $f_{ρ_t^{MF}}$, which evolves in the mean-field dynamics. While constant-time horizon bounds for $\|f_{ρ_t^{MF}} - f_{\hatρ_t^m}\|$ may be obtained via standard Grönwall estimates, the long-time behavior of the fluctuation is a more delicate matter. Uniform-in-time bounds often rely on (local) strong convexity in the landscape or Logarithmic Sobolev inequalities present in noisy gradient dynamics. In this work, we establish non-asymptotic weak propagation-of-chaos that holds uniformly in time, obtained by exploiting instead the convergence rate of the mean-field deterministic Wasserstein-gradient-flow dynamics. Specifically, denoting by $L_t$ the mean-field excess MSE loss at time $t$ and $m$ the number of neurons, under standard regularity assumptions and the condition $\int_0^\infty L_t^{1/2} dt =O(\log d)$, we obtain the uniform in time bound $\|f_{ρ_t^{MF}}- f_{\hatρ_t^m}\|^2 \lesssim \text{poly}(d) m^{-\min(1,c/6)}$ whenever $L_t \lesssim t^{-c}$. Our result holds in a noiseless setting and does not make any assumptions on the geometry of the landscape near the optimum, and extends seamlessly to other forms of discretization, including finite number of samples and time discretization. A key takeaway of our result is that whenever the convergence rate of the mean-field, population-loss dynamics is faster than $t^{-2}$, we can attain a loss of $ε$ with only $\text{poly}(d/ε)$ neurons, training samples, and GD steps.
- Abstract(参考訳): 勾配降下を用いた特徴学習方式で訓練された一層ニューラルネットワークについて考察し、有限幅ネットワーク$f_{\hatρ_t^m}$の出力を、平均場力学において進化する無限幅の$f_{ρ_t^{MF}}$に関連付ける。
$\|f_{ρ_t^{MF}} - f_{\hatρ_t^m}\|$ の定数時間地平線境界は標準グロンウォール推定によって得られるが、変動の長時間の挙動はより微妙な問題である。
ユニフォーマル・イン・タイム境界は、しばしば(局所的な)ランドスケープの強い凸性や、雑音の勾配力学に存在する対数的ソボレフの不等式に依存する。
本研究では,平均場決定性ワッサーシュタイン勾配流れの収束率を利用して,時間的に一様に保たれる非漸近弱いカオスの伝播を確立する。
具体的には、$L_t$ における平均場過剰な MSE 損失 $t$ および $m$ によって、標準正則性仮定と条件 $\int_0^\infty L_t^{1/2} dt =O(\log d)$ により、時間境界 $\|f_{ρ_t^{MF}}- f_{\hatρ_t^m}\|^2 \lesssim \text{poly}(d) m^{-\min(1,c/6)}$ のとき、$L_t \lesssim t^{-c}$ となる。
この結果はノイズのない設定であり、最適近傍の風景の幾何については何も仮定せず、有限個のサンプルや時間離散化を含む他の形の離散化にシームレスに拡張する。
平均場の収束速度が$t^{-2}$よりも速くなると、$\text{poly}(d/ε)$ニューロン、トレーニングサンプル、GDステップで$ε$の損失が得られる。
関連論文リスト
- When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias [15.113649527486276]
良性オーバーフィッティングが線形レートで失敗することを示します。
この局所化機構は信号の存在下で持続するべきであるが、正確な信号-雑音分解は未解決の問題である。
論文 参考訳(メタデータ) (2026-05-07T14:14:09Z) - Quantitative Convergence of Wasserstein Gradient Flows of Kernel Mean Discrepancies [10.511277414974613]
ケルネル平均離散関数のワッサーシュタイン勾配流の定量的収束について検討した。
我々の設定は、特に無限幅および連続時間制限における浅層ニューラルネットワークのトレーニング力学をカバーしている。
論文 参考訳(メタデータ) (2026-03-02T15:32:54Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Generalized moduli of continuity under irregular or random deformations via multiscale analysis [0.0]
多分解近似空間の信号に対して、$U_s$ at scale $s$, $L2$ in the regime $|tau|_Linfty/sll 1$。
不安定性は、|tau|_Linfty/sgg 1$ のときに起こり、成長速度に対して鋭い上限を与える。
論文 参考訳(メタデータ) (2021-04-24T16:16:30Z) - Accelerated Gradient Tracking over Time-varying Graphs for Decentralized Optimization [59.65871549878937]
実用的な単一ループ加速勾配追跡には$O(fracgamma1-sigma_gamma)2sqrtfracLepsilon)$が必要であることを証明している。
我々の収束率は$O(frac1epsilon5/7)$と$O(fracLmu)5/7frac1(1-sigma)1.5logfrac1epsilon)$よりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-06T15:34:14Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。