論文の概要: Depth Separations in Neural Networks: Separating the Dimension from the Accuracy
- arxiv url: http://arxiv.org/abs/2402.07248v2
- Date: Wed, 06 Nov 2024 19:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:45.654232
- Title: Depth Separations in Neural Networks: Separating the Dimension from the Accuracy
- Title(参考訳): ニューラルネットワークの深さ分離:精度から次元を分離する
- Authors: Itay Safran, Daniel Reichman, Paul Valiant,
- Abstract要約: 我々は、(実入力で)深度2と深度3ニューラルネットの指数的なサイズ分離を証明した。
対象関数が深度3ネットワークを用いて効率的に表現できる場合であっても,次元の呪いは深さ2の近似で現れることを示す。
- 参考スコア(独自算出の注目度): 9.783697404304027
- License:
- Abstract: We prove an exponential size separation between depth 2 and depth 3 neural networks (with real inputs), when approximating a $\mathcal{O}(1)$-Lipschitz target function to constant accuracy, with respect to a distribution with support in the unit ball, under the mild assumption that the weights of the depth 2 network are exponentially bounded. This resolves an open problem posed in \citet{safran2019depth}, and proves that the curse of dimensionality manifests itself in depth 2 approximation, even in cases where the target function can be represented efficiently using a depth 3 network. Previously, lower bounds that were used to separate depth 2 from depth 3 networks required that at least one of the Lipschitz constant, target accuracy or (some measure of) the size of the domain of approximation scale \emph{polynomially} with the input dimension, whereas in our result these parameters are fixed to be \emph{constants} independent of the input dimension: our parameters are simultaneously optimal. Our lower bound holds for a wide variety of activation functions, and is based on a novel application of a worst- to average-case random self-reducibility argument, allowing us to leverage depth 2 threshold circuits lower bounds in a new domain.
- Abstract(参考訳): 深度2と深度3のニューラルネットワーク(実入力)の指数的サイズ分離を,深度2ネットワークの重みが指数関数的に有界であるという軽微な仮定の下で,$\mathcal{O}(1)$-Lipschitzターゲット関数を一定精度で近似した場合に証明する。
これは \citet{safran2019depth} で表される開問題を解き、ディメンタリティの呪いがディープ3ネットワークを用いて目的関数を効率的に表現できる場合であっても、ディープ2近似において自分自身に現れることを証明している。
これまでは深度2と深度3のネットワークを分離するために用いられていた下界は、入力次元の近似スケール \emph{polynomially} の領域の大きさの少なくとも1つのリプシッツ定数、目標精度、あるいは(幾らかの測度)が入力次元と一致することを必要としていたが、その結果、これらのパラメータは入力次元とは独立に \emph{constants} となるように固定された: 私たちのパラメータは同時に最適である。
我々の下界は、様々な活性化関数を持ち、最低から平均のランダムな自己再現性引数の新たな応用に基づいており、新しい領域における下界の深さ2しきい値回路を利用することができる。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Depth Separation in Norm-Bounded Infinite-Width Neural Networks [55.21840159087921]
無限幅ニューラルネットワークでは,重みの総和$ell$-normで複雑性を制御できる。
本稿では,標準制御深度3ReLUネットワークによる入力次元のサンプル複雑性を学習可能な関数が存在するが,標準制御深度2ReLUネットワークによるサブ指数サンプル複雑性では学習できないことを示す。
論文 参考訳(メタデータ) (2024-02-13T21:26:38Z) - How Many Neurons Does it Take to Approximate the Maximum? [10.995895410470279]
我々は、$d$入力以上の最大関数を近似するために必要なニューラルネットワークのサイズについて検討する。
様々な深さにまたがる近似に必要な幅について, 新たな下限と上限を提供する。
論文 参考訳(メタデータ) (2023-07-18T12:47:35Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Sharp asymptotics on the compression of two-layer neural networks [19.683271092724937]
我々は,Nノードを対象とする2層ニューラルネットワークを,Mノードを対象とする圧縮ネットワークに圧縮することを検討した。
最適最適化問題はEqui Tight Frame(ETF)の重み付けによって達成されると推測する。
論文 参考訳(メタデータ) (2022-05-17T09:45:23Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Sparse Uncertainty Representation in Deep Learning with Inducing Weights [22.912675044223302]
我々はMatheronの条件付きガウスサンプリングルールを拡張し、高速な重量サンプリングを可能にする。
提案手法は,完全連結ニューラルネットワークとResNetを用いた予測および不確実性推定タスクにおける最先端の競争性能を実現する。
論文 参考訳(メタデータ) (2021-05-30T18:17:47Z) - Global Convergence of Three-layer Neural Networks in the Mean Field
Regime [3.553493344868413]
平均場系では、ニューラルネットワークは適切にスケールされ、幅は無限大になる傾向にあり、学習ダイナミクスは平均場限として知られる非線形かつ非自明な動的限界に傾向がある。
最近の研究は、この分析を2層ネットワークに適用し、グローバル収束保証を提供した。
平均場における非正規化フィードフォワード三層ネットワークに対する大域収束結果を示す。
論文 参考訳(メタデータ) (2021-05-11T17:45:42Z) - Provable Memorization via Deep Neural Networks using Sub-linear
Parameters [91.0268925267129]
O(N)$パラメータはニューラルネットワークが任意の$N$入力ラベルペアを記憶するのに十分であることが知られている。
深度を利用して,$O(N2/3)$パラメータが入力点分離の軽度条件下で,$N$ペアを記憶するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-10-26T06:19:38Z) - Learning Deep ReLU Networks Is Fixed-Parameter Tractable [21.625005195943707]
ガウス入力に関して未知のReLUネットワークを学習する問題を考察する。
ランニング時間が周囲次元の固定重みとなるアルゴリズムを与える。
我々の境界は、隠れた単位数、深さ、スペクトルノルムのスペクトルノルム、リプシッツ定数に依存する。
論文 参考訳(メタデータ) (2020-09-28T17:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。