Fugu-MT 論文翻訳(概要): Rethinking Gauss-Newton for learning over-parameterized models

論文の概要: Rethinking Gauss-Newton for learning over-parameterized models

arxiv url: http://arxiv.org/abs/2302.02904v1
Date: Mon, 6 Feb 2023 16:18:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 16:12:11.279540
Title: Rethinking Gauss-Newton for learning over-parameterized models
Title（参考訳）: 過パラメータモデル学習のためのガウスニュートンの再考
Authors: Michael Arbel
Abstract要約: ガウス・ニュートン法(Gauss-Newton's method, GN)は勾配降下よりも局所最適に収束することが知られている。 GNは高い計算コストの削減に一定の努力を払っているにもかかわらず、ディープニューラルネットワークの最適化に広く使われていない。
参考スコア（独自算出の注目度）: 15.513536659882675
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compared to gradient descent, Gauss-Newton's method (GN) and variants are known to converge faster to local optima at the expense of a higher computational cost per iteration. Still, GN is not widely used for optimizing deep neural networks despite a constant effort to reduce their higher computational cost. In this work, we propose to take a step back and re-think the properties of GN in light of recent advances in the dynamics of gradient flows of over-parameterized models and the implicit bias they induce. We first prove a fast global convergence result for the continuous-time limit of the generalized GN in the over-parameterized regime. We then show empirically that GN exhibits both a kernel regime where it generalizes as well as gradient flows, and a feature learning regime where GN induces an implicit bias for selecting global solutions that systematically under-performs those found by a gradient flow. Importantly, we observed this phenomenon even with enough computational budget to perform exact GN steps over the total training objective. This study suggests the need to go beyond improving the computational cost of GN for over-parametrized models towards designing new methods that can trade off optimization speed and the quality of their implicit bias.
Abstract（参考訳）: 勾配降下と比較すると、ガウス・ニュートン法(gn)と変種は、反復あたりの計算コストを犠牲にして、局所光学よりも高速に収束することが知られている。それでもGNは、高い計算コストの削減に絶え間ない努力にもかかわらず、ディープニューラルネットワークの最適化に広く使われていない。本研究では,過剰パラメータモデルの勾配流のダイナミクスと,それが引き起こす暗黙のバイアスの最近の進歩を踏まえ,gnの特性を一歩後退させ,再検討することを提案する。まず、過パラメータ化状態における一般化GNの連続時間極限に対する高速な大域収束結果を示す。次に,GNが勾配流を一般化するカーネル体制と,GNが勾配流から得られる解を体系的に過小評価する大域的解を選択するための暗黙のバイアスを誘発する特徴学習体制の両方を実証的に示す。重要なことは,この現象を計算予算が十分であれば,学習目標全体に対して正確なGNステップを実行することができる。本研究は、過剰パラメータモデルに対するgnの計算コストの改善を超越し、最適化速度と暗黙のバイアスの品質をトレードオフできる新しい手法を設計することの必要性を示唆する。

関連論文リスト

Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。しかし、二階法の一般化特性についてはいまだ議論が続いている。我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文参考訳（メタデータ） (2024-11-12T17:58:40Z)
Non-convergence to global minimizers in data driven supervised deep learning: Adam and stochastic gradient descent optimization provably fail to converge to global minimizers in the training of deep neural networks with ReLU activation [3.6185342807265415]
厳密な理論用語でSGD法の成功と限界を説明することは、研究のオープンな問題である。本研究では,最適化問題の大域的最小化に収束しない確率の高いSGD手法の大規模なクラスについて検証する。この研究の一般的な非収束結果は、通常のバニラ標準SGD法だけでなく、多くの加速および適応SGD法にも適用される。
論文参考訳（メタデータ） (2024-10-14T14:11:37Z)
On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文参考訳（メタデータ） (2024-10-10T15:34:10Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。 IGDは線形収束速度で大域的に最適解を収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
Regularized Gauss-Newton for Optimizing Overparameterized Neural Networks [2.0072624123275533]
一般化されたガウスニュートン(GGN)最適化法は、曲率推定を解法に組み込む。本研究では、2層ニューラルネットワークを明示的な正規化で最適化するGGN法について検討する。
論文参考訳（メタデータ） (2024-04-23T10:02:22Z)
On Feature Learning in Neural Networks with Global Convergence Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文参考訳（メタデータ） (2022-04-22T15:56:43Z)
Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文参考訳（メタデータ） (2021-04-12T16:23:37Z)
Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。いくつかの仮定の下で、提案した問題の理論的解析を行う。実験の結果,H-SGDはSGDより優れていた。
論文参考訳（メタデータ） (2020-11-20T09:50:40Z)
Fast Learning of Graph Neural Networks with Guaranteed Generalizability: One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文参考訳（メタデータ） (2020-06-25T00:45:52Z)
Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文参考訳（メタデータ） (2020-06-22T14:31:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。