論文の概要: Propagation of Chaos in One-hidden-layer Neural Networks beyond Logarithmic Time
- arxiv url: http://arxiv.org/abs/2504.13110v1
- Date: Thu, 17 Apr 2025 17:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 17:29:27.262753
- Title: Propagation of Chaos in One-hidden-layer Neural Networks beyond Logarithmic Time
- Title(参考訳): 対数時間を超える一層ニューラルネットワークにおけるカオスの伝播
- Authors: Margalit Glasgow, Denny Wu, Joan Bruna,
- Abstract要約: 本稿では,a-width ニューラルネットワークの力学と無限幅ニューラルネットワークとの近似ギャップについて検討する。
平均場力学によって支配される微分方程式を通して、この近似ギャップを厳密に束縛する方法を実証する。
- 参考スコア(独自算出の注目度): 39.09304480125516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the approximation gap between the dynamics of a polynomial-width neural network and its infinite-width counterpart, both trained using projected gradient descent in the mean-field scaling regime. We demonstrate how to tightly bound this approximation gap through a differential equation governed by the mean-field dynamics. A key factor influencing the growth of this ODE is the local Hessian of each particle, defined as the derivative of the particle's velocity in the mean-field dynamics with respect to its position. We apply our results to the canonical feature learning problem of estimating a well-specified single-index model; we permit the information exponent to be arbitrarily large, leading to convergence times that grow polynomially in the ambient dimension $d$. We show that, due to a certain ``self-concordance'' property in these problems -- where the local Hessian of a particle is bounded by a constant times the particle's velocity -- polynomially many neurons are sufficient to closely approximate the mean-field dynamics throughout training.
- Abstract(参考訳): 本研究では,多項式幅ニューラルネットワークのダイナミクスと無限幅ニューラルネットワークとの近似ギャップについて検討する。
平均場力学によって支配される微分方程式を通して、この近似ギャップを厳密に束縛する方法を実証する。
このODEの成長に影響を与える重要な要因は、各粒子の局所ヘッセンであり、その位置に関する平均場力学における粒子の速度の微分として定義される。
本研究では, 固有な単一インデックスモデルを推定する標準特徴学習問題に適用し, 情報指数が任意に大きくなることを許容し, 周辺次元$d$で多項式的に増大する収束時間を求める。
これらの問題において、粒子の局所ヘシアンが粒子の速度の一定倍の時間で有界となるような「自己調和」の性質のため、多項式的に多くのニューロンが、トレーニングを通して平均場力学を近似するのに十分であることを示す。
関連論文リスト
- Propagation of Chaos for Mean-Field Langevin Dynamics and its Application to Model Ensemble [36.19164064733151]
平均場ランゲヴィンダイナミクス (Mean-field Langevin dynamics, MFLD) は、2層ニューラルネットワークにおける雑音勾配勾配の平均場限界を導出した最適化手法である。
最近の研究は、有限粒子による近似誤差が時間的に均一であり、粒子数が増加するにつれて減少することを示している。
本稿では, 粒子近似項から正則化係数への指数的依存を除去する改良されたMFLDのPoC結果を確立する。
論文 参考訳(メタデータ) (2025-02-09T05:58:46Z) - Dynamic metastability in the self-attention model [22.689695473655906]
本稿では,トランスフォーマーの玩具モデルとして機能する自己認識モデル(単位球上の相互作用粒子系)について考察する。
我々は[GLPR23]で予想される動的メタスタビリティの出現を証明する。
適切な時間再スケーリングの下では、エネルギーは有限時間で世界最大に達し、階段の形状を持つことを示す。
論文 参考訳(メタデータ) (2024-10-09T12:50:50Z) - Learning Multi-Index Models with Neural Networks via Mean-Field Langevin Dynamics [21.55547541297847]
平均場ランゲヴィンアルゴリズムを用いて学習した2層ニューラルネットワークを用いて,高次元のマルチインデックスモデルを学習する問題について検討する。
軽度の分布仮定の下では、サンプルと計算の複雑さの両方を制御する実効次元 $d_mathrmeff$ を特徴づける。
論文 参考訳(メタデータ) (2024-08-14T02:13:35Z) - Improved Particle Approximation Error for Mean Field Neural Networks [9.817855108627452]
MFLD(Mean-field Langevin dynamics)は、確率分布の空間上で定義されるエントロピー規則化された非線形凸関数を最小化する。
最近の研究は、MFLDにおけるカオスの時間的一様伝播を実証している。
粒子近似誤差における対数的ソボレフ不等式(LSI)定数の依存性を改善する。
論文 参考訳(メタデータ) (2024-05-24T17:59:06Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Decimation technique for open quantum systems: a case study with
driven-dissipative bosonic chains [62.997667081978825]
量子系の外部自由度への不可避結合は、散逸(非単体)ダイナミクスをもたらす。
本稿では,グリーン関数の(散逸的な)格子計算に基づいて,これらのシステムに対処する手法を提案する。
本手法のパワーを,複雑性を増大させる駆動散逸型ボゾン鎖のいくつかの例で説明する。
論文 参考訳(メタデータ) (2022-02-15T19:00:09Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - A Dynamical Central Limit Theorem for Shallow Neural Networks [48.66103132697071]
平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
論文 参考訳(メタデータ) (2020-08-21T18:00:50Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。