論文の概要: Loss Spike in Training Neural Networks
- arxiv url: http://arxiv.org/abs/2305.12133v2
- Date: Sat, 05 Oct 2024 05:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:11:21.077626
- Title: Loss Spike in Training Neural Networks
- Title(参考訳): ニューラルネットワークのトレーニングにおける損失スパイク
- Authors: Xiaolong Li, Zhi-Qin John Xu, Zhongwang Zhang,
- Abstract要約: ニューラルネットワークトレーニング中に観察される損失スパイクのメカニズムについて検討する。
周波数の観点からは、損失の急激な降下は、主に低周波成分の影響を受けていると説明する。
我々は損失スパイクが凝縮を促進することを実験的に観察し、入力重みは同じ方向に進化する。
- 参考スコア(独自算出の注目度): 9.848777377317901
- License:
- Abstract: In this work, we investigate the mechanism underlying loss spikes observed during neural network training. When the training enters a region with a lower-loss-as-sharper (LLAS) structure, the training becomes unstable, and the loss exponentially increases once the loss landscape is too sharp, resulting in the rapid ascent of the loss spike. The training stabilizes when it finds a flat region. From a frequency perspective, we explain the rapid descent in loss as being primarily influenced by low-frequency components. We observe a deviation in the first eigendirection, which can be reasonably explained by the frequency principle, as low-frequency information is captured rapidly, leading to the rapid descent. Inspired by our analysis of loss spikes, we revisit the link between the maximum eigenvalue of the loss Hessian ($\lambda_{\mathrm{max}}$), flatness and generalization. We suggest that $\lambda_{\mathrm{max}}$ is a good measure of sharpness but not a good measure for generalization. Furthermore, we experimentally observe that loss spikes can facilitate condensation, causing input weights to evolve towards the same direction. And our experiments show that there is a correlation (similar trend) between $\lambda_{\mathrm{max}}$ and condensation. This observation may provide valuable insights for further theoretical research on the relationship between loss spikes, $\lambda_{\mathrm{max}}$, and generalization.
- Abstract(参考訳): 本研究では,ニューラルネットワークトレーニング中に観測される損失スパイクのメカニズムについて検討する。
トレーニングがローロス・アズ・シャーパー(LLAS)構造を持つ領域に入ると、トレーニングが不安定になり、ロスランドスケープがシャープ過ぎると、損失が指数関数的に増加し、損失スパイクが急速に上昇する。
訓練は平坦な領域を見つけると安定する。
周波数の観点からは、損失の急激な降下は、主に低周波成分の影響を受けていると説明する。
低周波情報が急速に取得され、急降下するので、周波数原理によって合理的に説明できる第1の固有方向の偏差を観察する。
損失スパイクの解析に触発されて、損失 Hessian (\lambda_{\mathrm{max}}$) の最大固有値、平坦性と一般化の間のリンクを再考する。
我々は、$\lambda_{\mathrm{max}}$はシャープネスのよい測度であるが、一般化のよい測度ではないことを示唆する。
さらに, 損失スパイクが凝縮を促進することを実験的に観察し, 入力重みは同じ方向に進展することを示した。
実験の結果,$\lambda_{\mathrm{max}}$ と condensation の間には相関関係(類似の傾向)があることが判明した。
この観測は、損失スパイク、$\lambda_{\mathrm{max}}$、一般化の関係に関するさらなる理論的研究のための貴重な洞察を与えるかもしれない。
関連論文リスト
- Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文 参考訳(メタデータ) (2024-10-07T16:49:39Z) - Astral: training physics-informed neural networks with error majorants [45.24347017854392]
我々は、残差は、少なくとも、近似解の誤差の間接測度であると主張する。
エラーメジャートはエラーの直接上限を与えるので、正確な解にどれだけ近いかを確実に推定することができる。
論文 参考訳(メタデータ) (2024-06-04T13:11:49Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Optimal learning rate schedules in high-dimensional non-convex
optimization problems [14.058580956992051]
学習率のスケジュールは、スピードアップと最適化の改善にユビキタスに使用されている。
本稿では,この設定におけるニューラルスケジューリングの役割に関する最初の分析研究について述べる。
論文 参考訳(メタデータ) (2022-02-09T15:15:39Z) - A variance principle explains why dropout finds flatter minima [0.0]
ドロップアウトによるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークを見出すことが示される。
本稿では,損失景観のよりシャープな方向において,ノイズの分散が大きくなるという分散原理を提案する。
論文 参考訳(メタデータ) (2021-11-01T15:26:19Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts
Generalization [111.57403811375484]
学習開始当初から,勾配降下がフィッシャー情報マトリックスの痕跡を暗黙的にペナルティ化することを示す。
暗黙的あるいは明示的な正規化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増加する可能性があることを強調する。
論文 参考訳(メタデータ) (2020-12-28T11:17:46Z) - Optimization and Generalization of Shallow Neural Networks with
Quadratic Activation Functions [11.70706646606773]
本研究では,一層ニューラルネットワークの最適化と一般化特性について検討する。
本研究では,教師が小幅の隠蔽層を持つ学生と同じ構造を持つ教師学生シナリオについて考察する。
同じ条件下では、経験的損失の勾配降下ダイナミクスが収束し、小さな一般化誤差をもたらすことが示される。
論文 参考訳(メタデータ) (2020-06-27T22:13:20Z) - Implicitly Maximizing Margins with the Hinge Loss [0.0]
固定ステップサイズの線形分離可能なデータ上の線形分類器の場合、この修正されたヒンジ損失のマージンは$mathcalO(1/t )$で$ell$max-marginに収束する。
実験結果から、この速度の増大はReLUネットワークへと引き継がれることが示唆された。
論文 参考訳(メタデータ) (2020-06-25T10:04:16Z) - Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。
本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文 参考訳(メタデータ) (2020-02-20T12:50:49Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。