論文の概要: A law of robustness for two-layers neural networks
- arxiv url: http://arxiv.org/abs/2009.14444v2
- Date: Tue, 24 Nov 2020 23:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:43:55.114770
- Title: A law of robustness for two-layers neural networks
- Title(参考訳): 2層ニューラルネットワークのロバスト性の法則
- Authors: S\'ebastien Bubeck and Yuanzhi Li and Dheeraj Nagaraj
- Abstract要約: 我々は、任意のリプシッツ活性化関数とほとんどのデータセットにおいて、$k$のニューロンを持つ任意の2層ニューラルネットワークは、データに完全に適合する任意の2層ニューラルネットワークは、そのリプシッツ定数が$sqrtn/k$よりも大きい(定数まで)。
この予想は、リプシッツ定数が重み行列のスペクトルノルムに基づいて上界に置き換わるときに証明する。
- 参考スコア(独自算出の注目度): 35.996863024271974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate the study of the inherent tradeoffs between the size of a neural
network and its robustness, as measured by its Lipschitz constant. We make a
precise conjecture that, for any Lipschitz activation function and for most
datasets, any two-layers neural network with $k$ neurons that perfectly fit the
data must have its Lipschitz constant larger (up to a constant) than
$\sqrt{n/k}$ where $n$ is the number of datapoints. In particular, this
conjecture implies that overparametrization is necessary for robustness, since
it means that one needs roughly one neuron per datapoint to ensure a
$O(1)$-Lipschitz network, while mere data fitting of $d$-dimensional data
requires only one neuron per $d$ datapoints. We prove a weaker version of this
conjecture when the Lipschitz constant is replaced by an upper bound on it
based on the spectral norm of the weight matrix. We also prove the conjecture
in the high-dimensional regime $n \approx d$ (which we also refer to as the
undercomplete case, since only $k \leq d$ is relevant here). Finally we prove
the conjecture for polynomial activation functions of degree $p$ when $n
\approx d^p$. We complement these findings with experimental evidence
supporting the conjecture.
- Abstract(参考訳): 我々は、リプシッツ定数によって測定された、ニューラルネットワークの大きさとその堅牢性の間の固有のトレードオフの研究を開始する。
我々は、任意のリプシッツ活性化関数とほとんどのデータセットにおいて、データに完全に適合する$k$のニューロンを持つ2層ニューラルネットワークは、$n$がデータポイントの数であるような$\sqrt{n/k}$よりも大きい(定数まで)ことを要求する。
これは、o(1)$-lipschitzネットワークを保証するためにデータポイントあたりおよそ1つのニューロンが必要であることを意味し、一方、d$-dimensionalデータに適合するデータには$d$データポイント当たり1つのニューロンのみが必要であることを意味する。
重み行列のスペクトルノルムに基づいて、リプシッツ定数が上界に置き換えられたとき、この予想のより弱いバージョンを証明する。
また、高次元のレジームである $n \approx d$(ここでは$k \leq d$ が関係するので、超完全ケースとも呼ばれる)で予想を証明する。
最後に、次数$p$ の多項式活性化関数の予想を$n \approx d^p$ で証明する。
我々はこの予想を裏付ける実験的証拠を用いてこれらの発見を補完する。
関連論文リスト
- Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Near-optimal fitting of ellipsoids to random points [68.12685213894112]
楕円体をランダムな点に合わせるという基本的な問題は、低ランク行列分解、独立成分分析、主成分分析に関係している。
我々はこの予想を、ある$n = Omega(, d2/mathrmpolylog(d))$ に対する適合楕円体を構成することで対数的因子まで解決する。
我々の証明は、ある非標準確率行列の便利な分解を用いて、サンダーソン等最小二乗構成の実現可能性を示す。
論文 参考訳(メタデータ) (2022-08-19T18:00:34Z) - On the Multidimensional Random Subset Sum Problem [0.9007371440329465]
確率変数 $X_1, ..., X_n$ が与えられたランダム部分集合 Sum 問題では、任意の点 $z in [-1,1]$ を部分集合 $X_i_1(z), ..., X_i_s(z)$ の和として近似したい。
我々は、$d$次元において、$n = O(d3log frac 1varepsilon cdot
論文 参考訳(メタデータ) (2022-07-28T08:10:43Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - An Exponential Improvement on the Memorization Capacity of Deep
Threshold Networks [40.489350374378645]
我々は$widetildemathcalO(e1/delta2+sqrtn)$ニューロンと$widetildemathcalO(fracddelta+n)$ウェイトが十分であることを証明した。
また、超平面を用いて球面上の$n$の点を分離する純粋に幾何学的な問題にニューラルネットワークを接続することで、新しい下界を証明した。
論文 参考訳(メタデータ) (2021-06-14T19:42:32Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - A Law of Robustness for Weight-bounded Neural Networks [37.54604146791085]
最近(bubeck et al., 2020)は、k$ニューロンを持つ2層ネットワークを使ってジェネリックデータセットに適合する場合、最小のリプシッツ定数は$omega(sqrtfracnk)$であると予想した。
本研究では,任意のモデルクラスに対して,有界ラデマチャー複雑性を持つLipschitz定数の下限を導出する。
この結果は(bubeck et al., 2020)2層ネットワークにおける有界重みを仮定した予想と一致する。
論文 参考訳(メタデータ) (2021-02-16T11:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。