論文の概要: Rethinking Gauss-Newton for learning over-parameterized models
- arxiv url: http://arxiv.org/abs/2302.02904v2
- Date: Mon, 5 Jun 2023 10:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 03:05:46.323619
- Title: Rethinking Gauss-Newton for learning over-parameterized models
- Title(参考訳): 過パラメータモデル学習のためのガウスニュートンの再考
- Authors: Michael Arbel and Romain Menegaux and Pierre Wolinski
- Abstract要約: 単層層ネットワークを最適化する際のガウスニュートン(GN)のグローバル収束と一般化特性について検討する。
GNはグローバルな最適度を求める際にGDよりも一貫して高速であるのに対し、テストデータセット上での学習モデルの性能は学習率とランダムネットワークの重みのばらつきの両方に大きく影響されている。
- 参考スコア(独自算出の注目度): 13.13184617561927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the global convergence and generalization properties of
Gauss Newton's (GN) when optimizing one-hidden layer networks in the
over-parameterized regime. We first establish a global convergence result for
GN in the continuous-time limit exhibiting a faster convergence rate compared
to GD due to improved conditioning. We then perform an empirical study on a
synthetic regression task to investigate the implicit bias of GN's method. We
find that, while GN is consistently faster than GD in finding a global optimum,
the performance of the learned model on a test dataset is heavily influenced by
both the learning rate and the variance of the randomly initialized network's
weights. Specifically, we find that initializing with a smaller variance
results in a better generalization, a behavior also observed for GD. However,
in contrast to GD where larger learning rates lead to the best generalization,
we find that GN achieves an improved generalization when using smaller learning
rates, albeit at the cost of slower convergence. This study emphasizes the
significance of the learning rate in balancing the optimization speed of GN
with the generalization ability of the learned solution.
- Abstract(参考訳): 本研究は,オーバーパラメータ化法において1層ネットワークを最適化する際のガウス・ニュートン(gn)の大域収束と一般化特性について検討する。
まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。
次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
その結果、GNはグローバルな最適度を求める際にGDよりも一貫して高速であるが、テストデータセット上での学習モデルの性能は学習率とランダムに初期化されたネットワークの重みのばらつきに大きく影響していることがわかった。
具体的には、より小さな分散で初期化することでより一般化され、GDに対しても挙動が観察される。
しかし,より学習率の高いGDとは対照的に,より学習率の低いGNでは,収束の遅いコストではあるものの,GNはより優れた一般化を実現する。
本研究では,GNの最適化速度と学習解の一般化能力のバランスをとる際の学習速度の重要性を強調する。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Regularized Gauss-Newton for Optimizing Overparameterized Neural Networks [2.0072624123275533]
一般化されたガウスニュートン(GGN)最適化法は、曲率推定を解法に組み込む。
本研究では、2層ニューラルネットワークを明示的な正規化で最適化するGGN法について検討する。
論文 参考訳(メタデータ) (2024-04-23T10:02:22Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。
いくつかの仮定の下で、提案した問題の理論的解析を行う。
実験の結果,H-SGDはSGDより優れていた。
論文 参考訳(メタデータ) (2020-11-20T09:50:40Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。