論文の概要: Rethinking Gauss-Newton for learning over-parameterized models
- arxiv url: http://arxiv.org/abs/2302.02904v3
- Date: Tue, 12 Dec 2023 08:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 20:54:24.778325
- Title: Rethinking Gauss-Newton for learning over-parameterized models
- Title(参考訳): 過パラメータモデル学習のためのガウスニュートンの再考
- Authors: Michael Arbel and Romain Menegaux and Pierre Wolinski
- Abstract要約: まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。
次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
- 参考スコア(独自算出の注目度): 14.780386419851956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the global convergence and implicit bias of Gauss Newton's
(GN) when optimizing over-parameterized one-hidden layer networks in the
mean-field regime. We first establish a global convergence result for GN in the
continuous-time limit exhibiting a faster convergence rate compared to GD due
to improved conditioning. We then perform an empirical study on a synthetic
regression task to investigate the implicit bias of GN's method. While GN is
consistently faster than GD in finding a global optimum, the learned model
generalizes well on test data when starting from random initial weights with a
small variance and using a small step size to slow down convergence.
Specifically, our study shows that such a setting results in a hidden learning
phenomenon, where the dynamics are able to recover features with good
generalization properties despite the model having sub-optimal training and
test performances due to an under-optimized linear layer. This study exhibits a
trade-off between the convergence speed of GN and the generalization ability of
the learned solution.
- Abstract(参考訳): 本研究は,平均場環境におけるオーバーパラメータの1層ネットワーク最適化におけるガウス・ニュートン(gn)のグローバル収束と暗黙のバイアスについて研究する。
まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。
次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
gn はgd よりも大域的最適度を求めるのが早いが、学習したモデルはランダム初期重みから小さな分散で開始し、小さなステップサイズで収束を遅くするテストデータによく一般化する。
具体的には, 線形層が過度に最適化されていないため, モデルが準最適トレーニングと試験性能を有するにもかかわらず, ダイナミクスが優れた一般化特性を持つ特徴を回復できる隠れ学習現象が生じることを示す。
本研究では,GNの収束速度と学習解の一般化能力とのトレードオフを示す。
関連論文リスト
- Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。
いくつかの仮定の下で、提案した問題の理論的解析を行う。
実験の結果,H-SGDはSGDより優れていた。
論文 参考訳(メタデータ) (2020-11-20T09:50:40Z) - Towards Flexible Sparsity-Aware Modeling: Automatic Tensor Rank Learning
Using The Generalized Hyperbolic Prior [24.848237413017937]
正準多進分解(CPD)のためのランク学習は、長い間必須だが難しい問題とみなされてきた。
テンソルランクの最適決定は、非決定論的時間ハード(NP-hard)タスクであることが知られている。
本稿では,確率論的モデリングモデルに先立って,より高度な一般化双曲型(GH)を導入する。
論文 参考訳(メタデータ) (2020-09-05T06:07:21Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。