論文の概要: Large-time asymptotics in deep learning
- arxiv url: http://arxiv.org/abs/2008.02491v2
- Date: Mon, 29 Mar 2021 20:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:55:27.128226
- Title: Large-time asymptotics in deep learning
- Title(参考訳): 深層学習における長期的漸近
- Authors: Carlos Esteve, Borjan Geshkovski, Dario Pighin, Enrique Zuazua
- Abstract要約: トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the neural ODE perspective of supervised learning and study the
impact of the final time $T$ (which may indicate the depth of a corresponding
ResNet) in training. For the classical $L^2$--regularized empirical risk
minimization problem, whenever the neural ODE dynamics are homogeneous with
respect to the parameters, we show that the training error is at most of the
order $\mathcal{O}\left(\frac{1}{T}\right)$. Furthermore, if the loss inducing
the empirical risk attains its minimum, the optimal parameters converge to
minimal $L^2$--norm parameters which interpolate the dataset. By a natural
scaling between $T$ and the regularization hyperparameter $\lambda$ we obtain
the same results when $\lambda\searrow0$ and $T$ is fixed. This allows us to
stipulate generalization properties in the overparametrized regime, now seen
from the large depth, neural ODE perspective. To enhance the polynomial decay,
inspired by turnpike theory in optimal control, we propose a learning problem
with an additional integral regularization term of the neural ODE trajectory
over $[0,T]$. In the setting of $\ell^p$--distance losses, we prove that both
the training error and the optimal parameters are at most of the order
$\mathcal{O}\left(e^{-\mu t}\right)$ in any $t\in[0,T]$. The aforementioned
stability estimates are also shown for continuous space-time neural networks,
taking the form of nonlinear integro-differential equations. By using a
time-dependent moving grid for discretizing the spatial variable, we
demonstrate that these equations provide a framework for addressing ResNets
with variable widths.
- Abstract(参考訳): 教師付き学習におけるニューラルODEの視点を考察し、トレーニングにおける最終時間$T$(ResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L^2$-正規化経験的リスク最小化問題では、ニューラルネットワークのODEダイナミクスがパラメータに関して均質であるときは常に、トレーニングエラーがほとんどの順序で$\mathcal{O}\left(\frac{1}{T}\right)$であることを示し、さらに、経験的リスクを誘導する損失が最小値に達した場合、最適パラメータはデータセットを補間する最小の$L^2$-ノルムパラメータに収束する。
T$ と正規化ハイパーパラメータ $\lambda$ の自然なスケーリングによって、$\lambda\searrow0$ と $T$ が固定されたときに同じ結果が得られる。
これにより、大深度、ニューラルODEの観点から、過度にパラメトリケートされた状態における一般化特性を規定することができる。
最適制御におけるターンパイク理論にインスパイアされた多項式減衰を増大させるために, 神経ode軌道の[0,t]$ 以上の積分正規化項を付加した学習問題を提案する。
$\ell^p$-距離損失の設定において、任意の$t\in[0,T]$において、トレーニングエラーと最適パラメータの両方が、ほとんどの順序で$\mathcal{O}\left(e^{-\mu t}\right)$であることを示す。
上記の安定性推定は、非線形積分微分方程式の形をとる連続時空ニューラルネットワークに対しても示される。
時間依存移動格子を用いて空間変数を離散化することにより、これらの方程式が可変幅のResNetに対処するためのフレームワークを提供することを示す。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Interplay between depth and width for interpolation in neural ODEs [0.0]
それらの幅$p$と層遷移数$L$の相互作用について検討する。
高次元設定では、$p=O(N)$ニューロンが正確な制御を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-01-18T11:32:50Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Feature Learning in $L_{2}$-regularized DNNs: Attraction/Repulsion and
Sparsity [9.077741848403791]
パラメータの損失は、トレーニングセットの層単位でのアクティベーション$Z_ell$の損失に再計算可能であることを示す。
この改革は、機能学習の背景にあるダイナミクスを明らかにします。
論文 参考訳(メタデータ) (2022-05-31T14:10:15Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。