論文の概要: Deep Learning meets Nonparametric Regression: Are Weight-Decayed DNNs Locally Adaptive?
- arxiv url: http://arxiv.org/abs/2204.09664v4
- Date: Sat, 18 May 2024 10:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 01:31:04.946199
- Title: Deep Learning meets Nonparametric Regression: Are Weight-Decayed DNNs Locally Adaptive?
- Title(参考訳): ディープラーニングは非パラメトリック回帰と出会う: ウェイトデケイドDNNは局所的に適応的か?
- Authors: Kaiqi Zhang, Yu-Xiang Wang,
- Abstract要約: 古典的非パラメトリック回帰問題のレンズからニューラルネットワーク(NN)の理論を研究する。
私たちの研究は、なぜ深さが重要なのか、そしてNNがカーネルメソッドよりも強力であるかについて、新たな光を当てています。
- 参考スコア(独自算出の注目度): 16.105097124039602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the theory of neural network (NN) from the lens of classical nonparametric regression problems with a focus on NN's ability to adaptively estimate functions with heterogeneous smoothness -- a property of functions in Besov or Bounded Variation (BV) classes. Existing work on this problem requires tuning the NN architecture based on the function spaces and sample size. We consider a "Parallel NN" variant of deep ReLU networks and show that the standard $\ell_2$ regularization is equivalent to promoting the $\ell_p$-sparsity ($0<p<1$) in the coefficient vector of an end-to-end learned function bases, i.e., a dictionary. Using this equivalence, we further establish that by tuning only the regularization factor, such parallel NN achieves an estimation error arbitrarily close to the minimax rates for both the Besov and BV classes. Notably, it gets exponentially closer to minimax optimal as the NN gets deeper. Our research sheds new lights on why depth matters and how NNs are more powerful than kernel methods.
- Abstract(参考訳): 本研究では,古典的非パラメトリック回帰問題のレンズからニューラルネットワーク(NN)の理論を考察し,不均一な滑らかさを持つ関数を適応的に推定するNNの能力に着目した。
既存の作業では、関数空間とサンプルサイズに基づいてNNアーキテクチャをチューニングする必要がある。
深層ReLUネットワークの"Parallel NN"変種を考えると、標準$\ell_2$正規化は、エンドツーエンドの学習関数基底の係数ベクトル、すなわち辞書における$\ell_p$-sparsity$0<p<1$)の促進と同値であることを示す。
この等価性を用いて、正規化係数のみをチューニングすることにより、そのような並列NNはベソフクラスとBVクラスの両方のミニマックスレートに任意に近似する推定誤差を達成できることを示す。
特に、NNがより深くなるにつれて、ミニマックスに指数関数的に近づく。
私たちの研究は、なぜ深さが重要なのか、そしてNNがカーネルメソッドよりも強力であるかについて、新たな光を当てています。
関連論文リスト
- Provable Tempered Overfitting of Minimal Nets and Typical Nets [42.995653381420595]
完全連結深部ニューラルネットワーク(NN)の過適合挙動について検討する。
最小のNN(最小の重みを持つ)とランダム補間NNを併用することを検討する。
両方の学習ルールに対して、過剰適合が誘惑的であることを証明します。
論文 参考訳(メタデータ) (2024-10-24T18:51:56Z) - Neural Networks for Singular Perturbations [0.0]
特異摂動楕円型二点境界値問題のモデルクラスの解集合に対する表現率境界を証明した。
我々は, NNサイズの観点から, ソボレフノルムの表現速度境界を定めている。
論文 参考訳(メタデータ) (2024-01-12T16:02:18Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Nonparametric regression using over-parameterized shallow ReLU neural networks [10.339057554827392]
ニューラルネットワークは、ある滑らかな関数クラスから関数を学習するために、最小収束率(対数係数まで)を達成することができることを示す。
回帰関数は、滑らかな$alpha(d+3)/2$あるいは浅いニューラルネットワークに対応する変分空間を持つH"古い空間から来ていると仮定される。
副産物として、浅いReLUニューラルネットワークの局所ラデマッハ複雑性に対する新しいサイズ非依存境界を導出する。
論文 参考訳(メタデータ) (2023-06-14T07:42:37Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Neural Optimization Kernel: Towards Robust Deep Learning [13.147925376013129]
近年の研究では、ニューラルネットワーク(NN)とカーネルメソッドの関連性が示されている。
本稿では,カーネル(NOK)という新しいカーネルファミリーを提案する。
パラメータ化ディープNN(NOK)は,経験的リスクを低減し,有界一般化を同時に低減できることを示す。
論文 参考訳(メタデータ) (2021-06-11T00:34:55Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。