論文の概要: On Convergence of Training Loss Without Reaching Stationary Points
- arxiv url: http://arxiv.org/abs/2110.06256v1
- Date: Tue, 12 Oct 2021 18:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:38:01.725332
- Title: On Convergence of Training Loss Without Reaching Stationary Points
- Title(参考訳): 定点のない訓練損失の収束性について
- Authors: Jingzhao Zhang, Haochuan Li, Suvrit Sra, Ali Jadbabaie
- Abstract要約: ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
- 参考スコア(独自算出の注目度): 62.41370821014218
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is a well-known fact that nonconvex optimization is computationally
intractable in the worst case. As a result, theoretical analysis of
optimization algorithms such as gradient descent often focuses on local
convergence to stationary points where the gradient norm is zero or negligible.
In this work, we examine the disconnect between the existing theoretical
analysis of gradient-based algorithms and actual practice. Specifically, we
provide numerical evidence that in large-scale neural network training, such as
in ImageNet, ResNet, and WT103 + TransformerXL models, the Neural Network
weight variables do not converge to stationary points where the gradient of the
loss function vanishes. Remarkably, however, we observe that while weights do
not converge to stationary points, the value of the loss function converges.
Inspired by this observation, we propose a new perspective based on ergodic
theory of dynamical systems. We prove convergence of the distribution of weight
values to an approximate invariant measure (without smoothness assumptions)
that explains this phenomenon. We further discuss how this perspective can
better align the theory with empirical observations.
- Abstract(参考訳): 非凸最適化が最悪の場合には計算上難解であることはよく知られている。
その結果、勾配降下のような最適化アルゴリズムの理論解析は、勾配ノルムがゼロあるいは無視できる定常点への局所収束に焦点を当てることが多い。
本研究では,グラデーションベースアルゴリズムの既存の理論的解析と実際の実践との解離について検討する。
具体的には、imagenet、resnet、wt103 + transformerxlモデルのような大規模ニューラルネットワークトレーニングにおいて、ニューラルネットワークの重み変数が損失関数の勾配が消滅する定常点に収束しないことを示す数値的証拠を提供する。
しかし、注目すべきことに、重みは定常点に収束しないが、損失関数の値は収束する。
この観測から着想を得て,力学系のエルゴード理論に基づく新たな視点を提案する。
この現象を説明する近似不変測度への重み値分布の収束を(滑らかさを仮定せずに)証明する。
我々はさらに、この視点が理論と経験的観察をよりよく一致させる方法について論じる。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文 参考訳(メタデータ) (2023-06-16T11:30:55Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - The Convex Geometry of Backpropagation: Neural Network Gradient Flows
Converge to Extreme Points of the Dual Convex Program [26.143558180103334]
凸形状と双対性の観点から2層ReLULUネットワークの非定常流について検討する。
そこで本研究では, 原始二重対応により, 非下位降下問題を特定することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T04:17:08Z) - Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。
我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文 参考訳(メタデータ) (2020-12-01T19:02:37Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。