論文の概要: Gradient descent provably escapes saddle points in the training of
shallow ReLU networks
- arxiv url: http://arxiv.org/abs/2208.02083v1
- Date: Wed, 3 Aug 2022 14:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:26:30.317260
- Title: Gradient descent provably escapes saddle points in the training of
shallow ReLU networks
- Title(参考訳): 浅いReLUネットワークのトレーニングにおける勾配降下によるサドル点の回避
- Authors: Patrick Cheridito, Arnulf Jentzen, Florian Rossmannek
- Abstract要約: 関係する力学系の結果の変種、中心安定多様体定理を証明し、いくつかの正則性要件を緩和する。
アフィンターゲット関数に対して測定された浅部ReLUネットワークの2乗積分損失の臨界点の分類に基づいて、勾配降下がほとんどのサドル点を回避することを推定する。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamical systems theory has recently been applied in optimization to prove
that gradient descent algorithms avoid so-called strict saddle points of the
loss function. However, in many modern machine learning applications, the
required regularity conditions are not satisfied. In particular, this is the
case for rectified linear unit (ReLU) networks. In this paper, we prove a
variant of the relevant dynamical systems result, a center-stable manifold
theorem, in which we relax some of the regularity requirements. Then, we verify
that shallow ReLU networks fit into the new framework. Building on a
classification of critical points of the square integral loss of shallow ReLU
networks measured against an affine target function, we deduce that gradient
descent avoids most saddle points. We proceed to prove convergence to global
minima if the initialization is sufficiently good, which is expressed by an
explicit threshold on the limiting loss.
- Abstract(参考訳): 力学系理論は近年、勾配降下アルゴリズムが損失関数の厳密な鞍点を避けることを証明するために最適化に応用されている。
しかし、現代の機械学習アプリケーションの多くは、要求される規則性条件を満たさない。
特に、これはrerectified linear unit (ReLU) ネットワークのケースである。
本稿では, 関連する力学系の結果, 中心安定多様体定理の変形を証明し, 正則性要件のいくつかを緩和する。
そして、浅いReLUネットワークが新しいフレームワークに適合していることを検証する。
アフィン目標関数に対して測定された浅reluネットワークの正方形積分損失の臨界点の分類に基づき、勾配降下がほとんどの鞍点を避けることを推定する。
初期化が十分良好であれば、大域最小化への収束を証明し、限界損失に対する明示的なしきい値で表される。
関連論文リスト
- On the Stability of Gradient Descent for Large Learning Rate [62.19241612132701]
ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks [45.886537625951256]
単一ニューロンReLUネットワークのトレーニングにおけるパラメータ空間の勾配流れのダイナミクスについて検討する。
具体的には、ReLUネットワークにおいて、なぜ、どのようにしてReLUネットワークが一般化されるかにおいて重要な役割を果たすサポートベクトルの観点で、暗黙のバイアスを発見できる。
論文 参考訳(メタデータ) (2022-02-11T08:55:58Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。