Fugu-MT 論文翻訳(概要): Rethinking Gauss-Newton for learning over-parameterized models

論文の概要: Rethinking Gauss-Newton for learning over-parameterized models

arxiv url: http://arxiv.org/abs/2302.02904v3
Date: Tue, 12 Dec 2023 08:40:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 20:54:24.778325
Title: Rethinking Gauss-Newton for learning over-parameterized models
Title（参考訳）: 過パラメータモデル学習のためのガウスニュートンの再考
Authors: Michael Arbel and Romain Menegaux and Pierre Wolinski
Abstract要約: まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
参考スコア（独自算出の注目度）: 14.780386419851956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work studies the global convergence and implicit bias of Gauss Newton's (GN) when optimizing over-parameterized one-hidden layer networks in the mean-field regime. We first establish a global convergence result for GN in the continuous-time limit exhibiting a faster convergence rate compared to GD due to improved conditioning. We then perform an empirical study on a synthetic regression task to investigate the implicit bias of GN's method. While GN is consistently faster than GD in finding a global optimum, the learned model generalizes well on test data when starting from random initial weights with a small variance and using a small step size to slow down convergence. Specifically, our study shows that such a setting results in a hidden learning phenomenon, where the dynamics are able to recover features with good generalization properties despite the model having sub-optimal training and test performances due to an under-optimized linear layer. This study exhibits a trade-off between the convergence speed of GN and the generalization ability of the learned solution.
Abstract（参考訳）: 本研究は,平均場環境におけるオーバーパラメータの1層ネットワーク最適化におけるガウス・ニュートン(gn)のグローバル収束と暗黙のバイアスについて研究する。まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。 gn はgd よりも大域的最適度を求めるのが早いが、学習したモデルはランダム初期重みから小さな分散で開始し、小さなステップサイズで収束を遅くするテストデータによく一般化する。具体的には, 線形層が過度に最適化されていないため, モデルが準最適トレーニングと試験性能を有するにもかかわらず, ダイナミクスが優れた一般化特性を持つ特徴を回復できる隠れ学習現象が生じることを示す。本研究では,GNの収束速度と学習解の一般化能力とのトレードオフを示す。

関連論文リスト

Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。しかし、二階法の一般化特性についてはいまだ議論が続いている。我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文参考訳（メタデータ） (2024-11-12T17:58:40Z)
Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation [3.6185342807265415]
厳密な理論用語でSGD法の成功と限界を説明することは、研究のオープンな問題である。本研究では,最適化問題の大域的最小化に収束しない確率の高いSGD手法の大規模なクラスについて検証する。この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、多くの加速および適応SGD法にも適用される。
論文参考訳（メタデータ） (2024-10-14T14:11:37Z)
On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文参考訳（メタデータ） (2024-10-10T15:34:10Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。 IGDは線形収束速度で大域的に最適解を収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
Regularized Gauss-Newton for Optimizing Overparameterized Neural Networks [2.0072624123275533]
一般化されたガウスニュートン(GGN)最適化法は、曲率推定を解法に組み込む。本研究では、2層ニューラルネットワークを明示的な正規化で最適化するGGN法について検討する。
論文参考訳（メタデータ） (2024-04-23T10:02:22Z)
On Feature Learning in Neural Networks with Global Convergence Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文参考訳（メタデータ） (2022-04-22T15:56:43Z)
Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文参考訳（メタデータ） (2021-04-12T16:23:37Z)
Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。いくつかの仮定の下で、提案した問題の理論的解析を行う。実験の結果,H-SGDはSGDより優れていた。
論文参考訳（メタデータ） (2020-11-20T09:50:40Z)
Fast Learning of Graph Neural Networks with Guaranteed Generalizability: One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文参考訳（メタデータ） (2020-06-25T00:45:52Z)
Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文参考訳（メタデータ） (2020-06-22T14:31:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。