論文の概要: Rethinking Gauss-Newton for learning over-parameterized models
- arxiv url: http://arxiv.org/abs/2302.02904v1
- Date: Mon, 6 Feb 2023 16:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:12:11.279540
- Title: Rethinking Gauss-Newton for learning over-parameterized models
- Title(参考訳): 過パラメータモデル学習のためのガウスニュートンの再考
- Authors: Michael Arbel
- Abstract要約: ガウス・ニュートン法(Gauss-Newton's method, GN)は勾配降下よりも局所最適に収束することが知られている。
GNは高い計算コストの削減に一定の努力を払っているにもかかわらず、ディープニューラルネットワークの最適化に広く使われていない。
- 参考スコア(独自算出の注目度): 15.513536659882675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to gradient descent, Gauss-Newton's method (GN) and variants are
known to converge faster to local optima at the expense of a higher
computational cost per iteration. Still, GN is not widely used for optimizing
deep neural networks despite a constant effort to reduce their higher
computational cost. In this work, we propose to take a step back and re-think
the properties of GN in light of recent advances in the dynamics of gradient
flows of over-parameterized models and the implicit bias they induce. We first
prove a fast global convergence result for the continuous-time limit of the
generalized GN in the over-parameterized regime. We then show empirically that
GN exhibits both a kernel regime where it generalizes as well as gradient
flows, and a feature learning regime where GN induces an implicit bias for
selecting global solutions that systematically under-performs those found by a
gradient flow. Importantly, we observed this phenomenon even with enough
computational budget to perform exact GN steps over the total training
objective. This study suggests the need to go beyond improving the
computational cost of GN for over-parametrized models towards designing new
methods that can trade off optimization speed and the quality of their implicit
bias.
- Abstract(参考訳): 勾配降下と比較すると、ガウス・ニュートン法(gn)と変種は、反復あたりの計算コストを犠牲にして、局所光学よりも高速に収束することが知られている。
それでもGNは、高い計算コストの削減に絶え間ない努力にもかかわらず、ディープニューラルネットワークの最適化に広く使われていない。
本研究では,過剰パラメータモデルの勾配流のダイナミクスと,それが引き起こす暗黙のバイアスの最近の進歩を踏まえ,gnの特性を一歩後退させ,再検討することを提案する。
まず、過パラメータ化状態における一般化GNの連続時間極限に対する高速な大域収束結果を示す。
次に,GNが勾配流を一般化するカーネル体制と,GNが勾配流から得られる解を体系的に過小評価する大域的解を選択するための暗黙のバイアスを誘発する特徴学習体制の両方を実証的に示す。
重要なことは,この現象を計算予算が十分であれば,学習目標全体に対して正確なGNステップを実行することができる。
本研究は、過剰パラメータモデルに対するgnの計算コストの改善を超越し、最適化速度と暗黙のバイアスの品質をトレードオフできる新しい手法を設計することの必要性を示唆する。
関連論文リスト
- Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。
いくつかの仮定の下で、提案した問題の理論的解析を行う。
実験の結果,H-SGDはSGDより優れていた。
論文 参考訳(メタデータ) (2020-11-20T09:50:40Z) - Towards Flexible Sparsity-Aware Modeling: Automatic Tensor Rank Learning
Using The Generalized Hyperbolic Prior [24.848237413017937]
正準多進分解(CPD)のためのランク学習は、長い間必須だが難しい問題とみなされてきた。
テンソルランクの最適決定は、非決定論的時間ハード(NP-hard)タスクであることが知られている。
本稿では,確率論的モデリングモデルに先立って,より高度な一般化双曲型(GH)を導入する。
論文 参考訳(メタデータ) (2020-09-05T06:07:21Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。