論文の概要: Analysis of the expected $L_2$ error of an over-parametrized deep neural
network estimate learned by gradient descent without regularization
- arxiv url: http://arxiv.org/abs/2311.14609v1
- Date: Fri, 24 Nov 2023 17:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 14:21:03.906131
- Title: Analysis of the expected $L_2$ error of an over-parametrized deep neural
network estimate learned by gradient descent without regularization
- Title(参考訳): 正規化を伴わない勾配降下による過度パラメータ化深層ニューラルネットワーク推定の予測$L_2$誤差の解析
- Authors: Selina Drews and Michael Kohler
- Abstract要約: 近年の研究では、正規化された経験的リスクに勾配降下を適用して学習した過度パラメータ化されたディープニューラルネットワークによって定義される推定値が、普遍的に一貫していることが示されている。
本稿では、同様の結果を得るために正規化項は必要ないことを示す。
- 参考スコア(独自算出の注目度): 7.977229957867868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent results show that estimates defined by over-parametrized deep neural
networks learned by applying gradient descent to a regularized empirical $L_2$
risk are universally consistent and achieve good rates of convergence. In this
paper, we show that the regularization term is not necessary to obtain similar
results. In the case of a suitably chosen initialization of the network, a
suitable number of gradient descent steps, and a suitable step size we show
that an estimate without a regularization term is universally consistent for
bounded predictor variables. Additionally, we show that if the regression
function is H\"older smooth with H\"older exponent $1/2 \leq p \leq 1$, the
$L_2$ error converges to zero with a convergence rate of approximately
$n^{-1/(1+d)}$. Furthermore, in case of an interaction model, where the
regression function consists of a sum of H\"older smooth functions with $d^*$
components, a rate of convergence is derived which does not depend on the input
dimension $d$.
- Abstract(参考訳): 最近の結果は、正規化された経験的l_2$リスクに勾配降下を適用して学習した過パラメータ深層ニューラルネットワークによって定義される推定は、普遍的に一貫性があり、良好な収束率が得られることを示している。
本稿では,同様の結果を得るために正規化項は不要であることを示す。
適切に選択されたネットワークの初期化の場合、適切な勾配降下ステップ数と適切なステップサイズは、正規化項を持たない推定が有界な予測変数に対して普遍的に一致することを示す。
さらに、回帰関数が H と H の指数 $1/2 \leq p \leq 1$ で滑らかであれば、$L_2$ の誤差は、約$n^{-1/(1+d)}$ の収束率で 0 に収束する。
さらに、回帰関数が$d^*$成分のH\より古い滑らかな関数の和からなる相互作用モデルの場合、入力次元$d$に依存しない収束率が導出される。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimiax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Provably Efficient Convergence of Primal-Dual Actor-Critic with
Nonlinear Function Approximation [15.319335698574932]
The first efficient convergence result with primal-dual actor-critic with a convergence of $mathcalOleft ascent(Nright)Nright)$ under Polyian sample。
Open GymAI連続制御タスクの結果。
論文 参考訳(メタデータ) (2022-02-28T15:16:23Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。
本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。
総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2021-02-09T02:44:24Z) - Structure Learning in Inverse Ising Problems Using $\ell_2$-Regularized
Linear Estimator [8.89493507314525]
モデルミスマッチにも拘わらず,正則化を伴わずに線形回帰を用いてネットワーク構造を完璧に識別できることを示す。
本稿では,2段階推定器を提案する。第1段階では隆起回帰を用い,比較的小さな閾値で推算を行う。
適切な正規化係数としきい値を持つ推定器は、0M/N1$でもネットワーク構造の完全同定を実現する。
論文 参考訳(メタデータ) (2020-08-19T09:11:33Z) - Tight Nonparametric Convergence Rates for Stochastic Gradient Descent
under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。
特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-15T08:25:50Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。