論文の概要: Rethinking Gauss-Newton for learning over-parameterized models
- arxiv url: http://arxiv.org/abs/2302.02904v1
- Date: Mon, 6 Feb 2023 16:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:12:11.279540
- Title: Rethinking Gauss-Newton for learning over-parameterized models
- Title(参考訳): 過パラメータモデル学習のためのガウスニュートンの再考
- Authors: Michael Arbel
- Abstract要約: ガウス・ニュートン法(Gauss-Newton's method, GN)は勾配降下よりも局所最適に収束することが知られている。
GNは高い計算コストの削減に一定の努力を払っているにもかかわらず、ディープニューラルネットワークの最適化に広く使われていない。
- 参考スコア(独自算出の注目度): 15.513536659882675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to gradient descent, Gauss-Newton's method (GN) and variants are
known to converge faster to local optima at the expense of a higher
computational cost per iteration. Still, GN is not widely used for optimizing
deep neural networks despite a constant effort to reduce their higher
computational cost. In this work, we propose to take a step back and re-think
the properties of GN in light of recent advances in the dynamics of gradient
flows of over-parameterized models and the implicit bias they induce. We first
prove a fast global convergence result for the continuous-time limit of the
generalized GN in the over-parameterized regime. We then show empirically that
GN exhibits both a kernel regime where it generalizes as well as gradient
flows, and a feature learning regime where GN induces an implicit bias for
selecting global solutions that systematically under-performs those found by a
gradient flow. Importantly, we observed this phenomenon even with enough
computational budget to perform exact GN steps over the total training
objective. This study suggests the need to go beyond improving the
computational cost of GN for over-parametrized models towards designing new
methods that can trade off optimization speed and the quality of their implicit
bias.
- Abstract(参考訳): 勾配降下と比較すると、ガウス・ニュートン法(gn)と変種は、反復あたりの計算コストを犠牲にして、局所光学よりも高速に収束することが知られている。
それでもGNは、高い計算コストの削減に絶え間ない努力にもかかわらず、ディープニューラルネットワークの最適化に広く使われていない。
本研究では,過剰パラメータモデルの勾配流のダイナミクスと,それが引き起こす暗黙のバイアスの最近の進歩を踏まえ,gnの特性を一歩後退させ,再検討することを提案する。
まず、過パラメータ化状態における一般化GNの連続時間極限に対する高速な大域収束結果を示す。
次に,GNが勾配流を一般化するカーネル体制と,GNが勾配流から得られる解を体系的に過小評価する大域的解を選択するための暗黙のバイアスを誘発する特徴学習体制の両方を実証的に示す。
重要なことは,この現象を計算予算が十分であれば,学習目標全体に対して正確なGNステップを実行することができる。
本研究は、過剰パラメータモデルに対するgnの計算コストの改善を超越し、最適化速度と暗黙のバイアスの品質をトレードオフできる新しい手法を設計することの必要性を示唆する。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Regularized Gauss-Newton for Optimizing Overparameterized Neural Networks [2.0072624123275533]
一般化されたガウスニュートン(GGN)最適化法は、曲率推定を解法に組み込む。
本研究では、2層ニューラルネットワークを明示的な正規化で最適化するGGN法について検討する。
論文 参考訳(メタデータ) (2024-04-23T10:02:22Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。
いくつかの仮定の下で、提案した問題の理論的解析を行う。
実験の結果,H-SGDはSGDより優れていた。
論文 参考訳(メタデータ) (2020-11-20T09:50:40Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。