論文の概要: Interplay between depth and width for interpolation in neural ODEs
- arxiv url: http://arxiv.org/abs/2401.09902v3
- Date: Tue, 6 Feb 2024 17:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:59:10.945794
- Title: Interplay between depth and width for interpolation in neural ODEs
- Title(参考訳): 神経オデムの補間における深さと幅の相互作用
- Authors: Antonio \'Alvarez-L\'opez, Arselane Hadj Slimane, Enrique Zuazua
- Abstract要約: それらの幅$p$と層遷移数$L$の相互作用について検討する。
高次元設定では、$p=O(N)$ニューロンが正確な制御を達成するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural ordinary differential equations (neural ODEs) have emerged as a
natural tool for supervised learning from a control perspective, yet a complete
understanding of their optimal architecture remains elusive. In this work, we
examine the interplay between their width $p$ and number of layer transitions
$L$ (effectively the depth $L+1$). Specifically, we assess the model
expressivity in terms of its capacity to interpolate either a finite dataset
$D$ comprising $N$ pairs of points or two probability measures in
$\mathbb{R}^d$ within a Wasserstein error margin $\varepsilon>0$. Our findings
reveal a balancing trade-off between $p$ and $L$, with $L$ scaling as
$O(1+N/p)$ for dataset interpolation, and
$L=O\left(1+(p\varepsilon^d)^{-1}\right)$ for measure interpolation.
In the autonomous case, where $L=0$, a separate study is required, which we
undertake focusing on dataset interpolation. We address the relaxed problem of
$\varepsilon$-approximate controllability and establish an error decay of
$\varepsilon\sim O(\log(p)p^{-1/d})$. This decay rate is a consequence of
applying a universal approximation theorem to a custom-built Lipschitz vector
field that interpolates $D$. In the high-dimensional setting, we further
demonstrate that $p=O(N)$ neurons are likely sufficient to achieve exact
control.
- Abstract(参考訳): ニューラル常微分方程式 (neural ODEs) は制御の観点から教師あり学習の自然な道具として登場したが、それらの最適アーキテクチャの完全な理解はいまだ解明されていない。
本研究では,その幅$p$と層遷移数$L$(事実上深さ$L+1$)の相互作用について検討する。
具体的には、ワッサーシュタイン誤差マージン$\varepsilon>0$の中で、N$の点対からなる有限データセット$D$または2つの確率測度を$\mathbb{R}^d$で補間する能力の観点からモデル表現性を評価する。
この結果から,データセット補間は$O(1+N/p)$,測定補間は$L=O\left(1+(p\varepsilon^d)^{-1}\right)$として,$L$が$O(1+N/p)$,$L$が$L$のバランスをとることが判明した。
自律的なケースでは、$l=0$の場合、データセットの補間に焦点を当てた別の研究が必要です。
我々は、$\varepsilon$-approximate controllabilityの緩和問題に対処し、$\varepsilon\sim O(\log(p)p^{-1/d})$の誤差崩壊を確立する。
この減衰率は、$d$を補間するカスタム構築リプシッツベクトル場に普遍近似定理を適用する結果である。
高次元設定では、$p=O(N)$ニューロンが正確な制御を達成するのに十分であることを示す。
関連論文リスト
- Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - On the Multidimensional Random Subset Sum Problem [0.9007371440329465]
確率変数 $X_1, ..., X_n$ が与えられたランダム部分集合 Sum 問題では、任意の点 $z in [-1,1]$ を部分集合 $X_i_1(z), ..., X_i_s(z)$ の和として近似したい。
我々は、$d$次元において、$n = O(d3log frac 1varepsilon cdot
論文 参考訳(メタデータ) (2022-07-28T08:10:43Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Threshold Phenomena in Learning Halfspaces with Massart Noise [56.01192577666607]
ガウス境界の下でのマスアートノイズ付きmathbbRd$におけるPAC学習ハーフスペースの問題について検討する。
この結果は,Massartモデルにおける学習ハーフスペースの複雑さを定性的に特徴づけるものである。
論文 参考訳(メタデータ) (2021-08-19T16:16:48Z) - Breaking The Dimension Dependence in Sparse Distribution Estimation
under Communication Constraints [18.03695167610009]
サンプルサイズ$n$が最低しきい値$n*(s, d, b)$を超えると、$Oleft( fracsn2bright)$の$ell$推定誤差を達成できることを示す。
対話的な設定のために,新しい木に基づく推定手法を提案し,次元自由収束を実現するために必要な最小サンプルサイズを,さらに$n*(s, d, b)$に縮めることを示した。
論文 参考訳(メタデータ) (2021-06-16T07:52:14Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Maximizing Determinants under Matroid Constraints [69.25768526213689]
我々は、$det(sum_i in Sv_i v_i v_itop)$が最大になるような基底を$S$$$$M$とする問題を研究する。
この問題は、実験的なデザイン、商品の公平な割り当て、ネットワーク設計、機械学習など、さまざまな分野に現れている。
論文 参考訳(メタデータ) (2020-04-16T19:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。