論文の概要: The Multiscale Structure of Neural Network Loss Functions: The Effect on
Optimization and Origin
- arxiv url: http://arxiv.org/abs/2204.11326v1
- Date: Sun, 24 Apr 2022 17:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 00:48:29.764093
- Title: The Multiscale Structure of Neural Network Loss Functions: The Effect on
Optimization and Origin
- Title(参考訳): ニューラルネットワーク損失関数のマルチスケール構造:最適化と創発性への影響
- Authors: Chao Ma, Lei Wu, Lexing Ying
- Abstract要約: 本稿では,ニューラルネットワークの損失関数の構造とその2次近似の範囲を超えた領域における最適化への影響について検討する。
異なる大きさのトレーニングデータによって損失関数のスケールが異なることが示され、サブクワッドラティックな成長や複数の個別のスケールが生成される。
- 参考スコア(独自算出の注目度): 12.092361450994318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local quadratic approximation has been extensively used to study the
optimization of neural network loss functions around the minimum. Though, it
usually holds in a very small neighborhood of the minimum, and cannot explain
many phenomena observed during the optimization process. In this work, we study
the structure of neural network loss functions and its implication on
optimization in a region beyond the reach of good quadratic approximation.
Numerically, we observe that neural network loss functions possesses a
multiscale structure, manifested in two ways: (1) in a neighborhood of minima,
the loss mixes a continuum of scales and grows subquadratically, and (2) in a
larger region, the loss shows several separate scales clearly. Using the
subquadratic growth, we are able to explain the Edge of Stability phenomenon[4]
observed for gradient descent (GD) method. Using the separate scales, we
explain the working mechanism of learning rate decay by simple examples.
Finally, we study the origin of the multiscale structure and propose that the
non-uniformity of training data is one of its cause. By constructing a
two-layer neural network problem we show that training data with different
magnitudes give rise to different scales of the loss function, producing
subquadratic growth or multiple separate scales.
- Abstract(参考訳): 局所二次近似は、最小限のニューラルネットワーク損失関数の最適化の研究に広く用いられている。
しかし、通常は最小限の非常に小さな近傍にあり、最適化過程で観測された多くの現象を説明できない。
本研究では,ニューラルネットワーク損失関数の構造とその2次近似の範囲を超えた領域における最適化への影響について検討する。
数値的には、ニューラルネットワークの損失関数は、(1)ミニマ近傍では、損失がスケールの連続体とサブクアドラルな成長を混合し、(2)より大きな領域では、損失がいくつかの別々のスケールを示すという2つの方法で表されるマルチスケール構造を持っている。
準四面体成長を用いて,勾配降下法(GD)法で観測された安定性のエッジ[4]を説明することができる。
個別の尺度を用いて,学習率減衰の動作機構を簡単な例で説明する。
最後に,マルチスケール構造の起源を考察し,トレーニングデータの非一様性がその原因の一つであることを示す。
2層ニューラルネットワーク問題を構築することで、異なる大きさのトレーニングデータが損失関数の異なるスケールを生じさせ、サブクワッドラティックな成長または複数の別スケールを生み出すことを示す。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Accelerated Neural Network Training with Rooted Logistic Objectives [13.400503928962756]
我々は、少なくともロジスティック損失と同じくらい厳密なエムの厳密凸関数列を導出する。
その結果,根付き損失関数による学習はより早く収束し,性能が向上した。
論文 参考訳(メタデータ) (2023-10-05T20:49:48Z) - A simple connection from loss flatness to compressed representations in neural networks [3.5502600490147196]
ディープニューラルネットワークにおける学習の最終段階において、ニューラルネットワークの多様体の圧縮は、SGDが探索したミニマのまわりの損失の平坦さと相関することを示す。
我々の研究はMaとYingによる線形安定性の洞察に基づいており、様々な圧縮測定値と鋭さを含む量の不等式を導出する。
論文 参考訳(メタデータ) (2023-10-03T03:36:29Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。