論文の概要: Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of
Neural Networks with Polynomial Width, Samples, and Time
- arxiv url: http://arxiv.org/abs/2306.16361v2
- Date: Sat, 7 Oct 2023 05:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:17:42.535041
- Title: Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of
Neural Networks with Polynomial Width, Samples, and Time
- Title(参考訳): Vanilla Gradient Descentを用いたNTKを超えて:ポリノーミアル幅,サンプル,時間を有するニューラルネットワークの平均場解析
- Authors: Arvind Mahankali, Jeff Z. Haochen, Kefan Dong, Margalit Glasgow,
Tengyu Ma
- Abstract要約: 不自然な変更を伴わないネットワーク上の勾配勾配勾配が、カーネル法よりも優れたサンプリング複雑性を達成できるかどうかは、まだ明らかな問題である。
正の学習数を持つ射影勾配降下は同じサンプルで低誤差に収束することを示す。
- 参考スコア(独自算出の注目度): 37.73689342377357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent theoretical progress on the non-convex optimization of
two-layer neural networks, it is still an open question whether gradient
descent on neural networks without unnatural modifications can achieve better
sample complexity than kernel methods. This paper provides a clean mean-field
analysis of projected gradient flow on polynomial-width two-layer neural
networks. Different from prior works, our analysis does not require unnatural
modifications of the optimization algorithm. We prove that with sample size $n
= O(d^{3.1})$ where $d$ is the dimension of the inputs, the network trained
with projected gradient flow converges in $\text{poly}(d)$ time to a
non-trivial error that is not achievable by kernel methods using $n \ll d^4$
samples, hence demonstrating a clear separation between unmodified gradient
descent and NTK. As a corollary, we show that projected gradient descent with a
positive learning rate and a polynomial number of iterations converges to low
error with the same sample complexity.
- Abstract(参考訳): 2層ニューラルネットワークの非凸最適化に関する最近の理論的な進歩にもかかわらず、不自然な修正を伴わないニューラルネットワークの勾配降下がカーネル法よりも優れたサンプル複雑性を達成することができるかどうかはまだ疑問である。
本稿では,多項式幅2層ニューラルネットワーク上の投影勾配流れのクリーンな平均場解析を提供する。
先行研究と異なり,本解析では最適化アルゴリズムの不自然な修正は不要である。
サンプルサイズ $n = o(d^{3.1})$ ここで$d$ は入力の次元であり、投影された勾配フローで訓練されたネットワークは$\text{poly}(d)$ で収束し、非自明なエラーに収束する。
その結果,正の学習率と多項式数で投影された勾配降下は,同じサンプル複雑性で低い誤差に収束することがわかった。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。
各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。
いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文 参考訳(メタデータ) (2023-02-25T14:14:01Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Sample Complexity and Overparameterization Bounds for Projection-Free
Neural TD Learning [38.730333068555275]
神経td学習の既存の解析は、無限幅解析または(ランダム)コンパクト集合内のネットワークパラメータの制約に依存している。
poly(overlinenu,1/epsilon)$以上の幅の2層reluネットワークを備えたプロジェクションフリーtd学習は、$poly(overlinenu,1/epsilon)$イテレーションまたはサンプルを与えられたエラー$epsilon$で真の値関数に収束する。
論文 参考訳(メタデータ) (2021-03-02T01:05:19Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。