論文の概要: Curse of Dimensionality in Neural Network Optimization
- arxiv url: http://arxiv.org/abs/2502.05360v1
- Date: Fri, 07 Feb 2025 22:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:03.857957
- Title: Curse of Dimensionality in Neural Network Optimization
- Title(参考訳): ニューラルネットワーク最適化における次元の曲線
- Authors: Sanghoon Na, Haizhao Yang,
- Abstract要約: 平均場状態下でのニューラルネットワーク最適化における次元性の呪いについて検討した。
局所リプシッツ連続活性化関数が用いられるとき、次元性の呪いは持続する。
- 参考スコア(独自算出の注目度): 6.460951804337735
- License:
- Abstract: The curse of dimensionality in neural network optimization under the mean-field regime is studied. It is demonstrated that when a shallow neural network with a Lipschitz continuous activation function is trained using either empirical or population risk to approximate a target function that is $r$ times continuously differentiable on $[0,1]^d$, the population risk may not decay at a rate faster than $t^{-\frac{4r}{d-2r}}$, where $t$ is an analog of the total number of optimization iterations. This result highlights the presence of the curse of dimensionality in the optimization computation required to achieve a desired accuracy. Instead of analyzing parameter evolution directly, the training dynamics are examined through the evolution of the parameter distribution under the 2-Wasserstein gradient flow. Furthermore, it is established that the curse of dimensionality persists when a locally Lipschitz continuous activation function is employed, where the Lipschitz constant in $[-x,x]$ is bounded by $O(x^\delta)$ for any $x \in \mathbb{R}$. In this scenario, the population risk is shown to decay at a rate no faster than $t^{-\frac{(4+2\delta)r}{d-2r}}$. To the best of our knowledge, this work is the first to analyze the impact of function smoothness on the curse of dimensionality in neural network optimization theory.
- Abstract(参考訳): 平均場状態下でのニューラルネットワーク最適化における次元性の呪いについて検討した。
リプシッツ連続活性化関数を持つ浅いニューラルネットワークを経験的あるいは集団的リスクを用いてトレーニングし、[0,1]^d$で連続的に微分可能な目標関数を$r$で近似すると、集団的リスクは$t^{-\frac{4r}{d-2r}}$より早く崩壊しない。
この結果は、所望の精度を達成するのに必要な最適化計算における次元の呪いの存在を強調している。
パラメータの進化を直接解析する代わりに、2-ワッサーシュタイン勾配流下でのパラメータ分布の進化を通して、トレーニング力学を考察する。
さらに、任意の$x \in \mathbb{R}$に対して、$[-x,x]$のリプシッツ定数が$O(x^\delta)$で有界であるような局所リプシッツ連続活性化関数が用いられるとき、次元性の呪いは持続する。
このシナリオでは、人口リスクは$t^{-\frac{(4+2\delta)r}{d-2r}}$より速く崩壊する。
我々の知る限りでは、この研究はニューラルネットワーク最適化理論における次元の呪いに対する関数の滑らかさの影響を初めて分析するものである。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Analysis of the expected $L_2$ error of an over-parametrized deep neural
network estimate learned by gradient descent without regularization [7.977229957867868]
近年の研究では、正規化された経験的リスクに勾配降下を適用して学習した過度パラメータ化されたディープニューラルネットワークによって定義される推定値が、普遍的に一貫していることが示されている。
本稿では、同様の結果を得るために正規化項は必要ないことを示す。
論文 参考訳(メタデータ) (2023-11-24T17:04:21Z) - Efficient uniform approximation using Random Vector Functional Link
networks [0.0]
ランダムベクトル関数リンク(英: Random Vector Functional Link, RVFL)は、ランダムな内部ノードとバイアスを持つディープ2ニューラルネットワークである。
本稿では、ReLUアクティベートされたRVFLがLipschitzターゲット関数を近似できることを示す。
我々の証明法は理論と調和解析に根ざしている。
論文 参考訳(メタデータ) (2023-06-30T09:25:03Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間に エントロピーバウンド 片方向の線形活性化関数を持つ
我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文 参考訳(メタデータ) (2021-04-05T18:02:04Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。