論文の概要: Rethinking Gauss-Newton for learning over-parameterized models
- arxiv url: http://arxiv.org/abs/2302.02904v3
- Date: Tue, 12 Dec 2023 08:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 20:54:24.778325
- Title: Rethinking Gauss-Newton for learning over-parameterized models
- Title(参考訳): 過パラメータモデル学習のためのガウスニュートンの再考
- Authors: Michael Arbel and Romain Menegaux and Pierre Wolinski
- Abstract要約: まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。
次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
- 参考スコア(独自算出の注目度): 14.780386419851956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the global convergence and implicit bias of Gauss Newton's
(GN) when optimizing over-parameterized one-hidden layer networks in the
mean-field regime. We first establish a global convergence result for GN in the
continuous-time limit exhibiting a faster convergence rate compared to GD due
to improved conditioning. We then perform an empirical study on a synthetic
regression task to investigate the implicit bias of GN's method. While GN is
consistently faster than GD in finding a global optimum, the learned model
generalizes well on test data when starting from random initial weights with a
small variance and using a small step size to slow down convergence.
Specifically, our study shows that such a setting results in a hidden learning
phenomenon, where the dynamics are able to recover features with good
generalization properties despite the model having sub-optimal training and
test performances due to an under-optimized linear layer. This study exhibits a
trade-off between the convergence speed of GN and the generalization ability of
the learned solution.
- Abstract(参考訳): 本研究は,平均場環境におけるオーバーパラメータの1層ネットワーク最適化におけるガウス・ニュートン(gn)のグローバル収束と暗黙のバイアスについて研究する。
まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。
次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
gn はgd よりも大域的最適度を求めるのが早いが、学習したモデルはランダム初期重みから小さな分散で開始し、小さなステップサイズで収束を遅くするテストデータによく一般化する。
具体的には, 線形層が過度に最適化されていないため, モデルが準最適トレーニングと試験性能を有するにもかかわらず, ダイナミクスが優れた一般化特性を持つ特徴を回復できる隠れ学習現象が生じることを示す。
本研究では,GNの収束速度と学習解の一般化能力とのトレードオフを示す。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Regularized Gauss-Newton for Optimizing Overparameterized Neural Networks [2.0072624123275533]
一般化されたガウスニュートン(GGN)最適化法は、曲率推定を解法に組み込む。
本研究では、2層ニューラルネットワークを明示的な正規化で最適化するGGN法について検討する。
論文 参考訳(メタデータ) (2024-04-23T10:02:22Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。
いくつかの仮定の下で、提案した問題の理論的解析を行う。
実験の結果,H-SGDはSGDより優れていた。
論文 参考訳(メタデータ) (2020-11-20T09:50:40Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。