論文の概要: The Rate of Convergence of Variation-Constrained Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2106.12068v1
- Date: Tue, 22 Jun 2021 21:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:09:34.104188
- Title: The Rate of Convergence of Variation-Constrained Deep Neural Networks
- Title(参考訳): 変動拘束型ディープニューラルネットワークの収束率
- Authors: Gen Li, Yuantao Gu, Jie Ding
- Abstract要約: 変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
- 参考スコア(独自算出の注目度): 35.393855471751756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-layer feedforward networks have been used to approximate a wide range
of nonlinear functions. An important and fundamental problem is to understand
the learnability of a network model through its statistical risk, or the
expected prediction error on future data. To the best of our knowledge, the
rate of convergence of neural networks shown by existing works is bounded by at
most the order of $n^{-1/4}$ for a sample size of $n$. In this paper, we show
that a class of variation-constrained neural networks, with arbitrary width,
can achieve near-parametric rate $n^{-1/2+\delta}$ for an arbitrarily small
positive constant $\delta$. It is equivalent to $n^{-1 +2\delta}$ under the
mean squared error. This rate is also observed by numerical experiments. The
result indicates that the neural function space needed for approximating smooth
functions may not be as large as what is often perceived. Our result also
provides insight to the phenomena that deep neural networks do not easily
suffer from overfitting when the number of neurons and learning parameters
rapidly grow with $n$ or even surpass $n$. We also discuss the rate of
convergence regarding other network parameters, including the input dimension,
network layer, and coefficient norm.
- Abstract(参考訳): 多層フィードフォワードネットワークは、幅広い非線形関数を近似するために使われてきた。
重要かつ根本的な問題は、その統計リスクや将来のデータに対する予測誤差を通じてネットワークモデルの学習可能性を理解することである。
私たちの知る限りでは、既存の研究で示されているニューラルネットワークの収束率は、サンプルサイズが$n$で、最大で$n^{-1/4}$である。
本稿では、任意の幅の可変制約付きニューラルネットワークのクラスが、任意に小さい正の定数$\delta$に対してほぼパラメトリックレート$n^{-1/2+\delta}$を実現できることを示す。
平均二乗誤差の下では$n^{-1 + 2\delta}$と等価である。
この速度は数値実験でも観測される。
その結果、滑らかな関数を近似するのに必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性がある。
我々の結果はまた、深層ニューラルネットワークが、ニューロンの数や学習パラメータの急激な増加が、n$を超えるか、あるいはn$を超えると、過度な適合に苦しむことがないという現象の洞察を与える。
また、入力次元、ネットワーク層、係数ノルムなど、他のネットワークパラメータに関する収束率についても検討する。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Nonparametric regression using over-parameterized shallow ReLU neural networks [10.339057554827392]
ニューラルネットワークは、ある滑らかな関数クラスから関数を学習するために、最小収束率(対数係数まで)を達成することができることを示す。
回帰関数は、滑らかな$alpha(d+3)/2$あるいは浅いニューラルネットワークに対応する変分空間を持つH"古い空間から来ていると仮定される。
副産物として、浅いReLUニューラルネットワークの局所ラデマッハ複雑性に対する新しいサイズ非依存境界を導出する。
論文 参考訳(メタデータ) (2023-06-14T07:42:37Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Normalization effects on deep neural networks [20.48472873675696]
ニューラルネットワークの出力の統計的挙動に対する$gamma_i$の選択の影響について検討する。
ニューラルネットワークの出力とテスト精度のばらつきの観点からは、$gamma_i$sを1にすることを選択すべきである。
論文 参考訳(メタデータ) (2022-09-02T17:05:55Z) - Correlation Functions in Random Fully Connected Neural Networks at
Finite Width [17.51364577113718]
この記事では、ガウスのランダムな重みとバイアスと$L$の隠蔽層を持つ完全に接続されたニューラルネットワークについて考察する。
有界非線形性に対しては、ネットワーク出力とその導関数の共役相関関数に対して1/n$の急激な再帰推定を与える。
いずれの場合も、深さと幅の比$L/n$は、個々のニューロンのゆらぎのスケールとニューロン間相関の大きさの両方を制御し、有効なネットワーク深さの役割を担っている。
論文 参考訳(メタデータ) (2022-04-03T11:57:18Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。