Fugu-MT 論文翻訳(概要): Loss Spike in Training Neural Networks

論文の概要: Loss Spike in Training Neural Networks

arxiv url: http://arxiv.org/abs/2305.12133v1
Date: Sat, 20 May 2023 07:57:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 00:27:21.967561
Title: Loss Spike in Training Neural Networks
Title（参考訳）: ニューラルネットワークのトレーニングにおける損失スパイク
Authors: Zhongwang Zhang, Zhi-Qin John Xu
Abstract要約: ニューラルネットワークトレーニング中に観察される損失スパイクのメカニズムについて検討した。この作業では、$lambda_mathrmmax$ flatness と generalization のリンクを再検討する。
参考スコア（独自算出の注目度）: 3.42658286826597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we study the mechanism underlying loss spikes observed during neural network training. When the training enters a region, which has a smaller-loss-as-sharper (SLAS) structure, the training becomes unstable and loss exponentially increases once it is too sharp, i.e., the rapid ascent of the loss spike. The training becomes stable when it finds a flat region. The deviation in the first eigen direction (with maximum eigenvalue of the loss Hessian ($\lambda_{\mathrm{max}}$) is found to be dominated by low-frequency. Since low-frequency is captured very fast (frequency principle), the rapid descent is then observed. Inspired by our analysis of loss spikes, we revisit the link between $\lambda_{\mathrm{max}}$ flatness and generalization. For real datasets, low-frequency is often dominant and well-captured by both the training data and the test data. Then, a solution with good generalization and a solution with bad generalization can both learn low-frequency well, thus, they have little difference in the sharpest direction. Therefore, although $\lambda_{\mathrm{max}}$ can indicate the sharpness of the loss landscape, deviation in its corresponding eigen direction is not responsible for the generalization difference. We also find that loss spikes can facilitate condensation, i.e., input weights evolve towards the same, which may be the underlying mechanism for why the loss spike improves generalization, rather than simply controlling the value of $\lambda_{\mathrm{max}}$.
Abstract（参考訳）: 本研究では,ニューラルネットワークトレーニング中に観測される損失スパイクのメカニズムについて検討する。トレーニングが小さなロス・アズ・シャーパー(SLAS)構造を持つ領域に入ると、トレーニングが不安定になり、シャープすぎると損失が指数関数的に増加する。訓練は平坦な領域を見つけると安定する。第1固有方向の偏差(損失ヘッセン(\lambda_{\mathrm{max}}$)の最大固有値を持つ)は低周波で支配される。低周波が非常に速い(周波数原理)ので、急降下が観測される。損失スパイクの分析に触発されて、$\lambda_{\mathrm{max}}$flatness と一般化のリンクを再検討した。実際のデータセットでは、低周波はトレーニングデータとテストデータの両方で支配的であり、よく把握される。そして、良い一般化の解と悪い一般化の解はどちらも低周波をよく学習できるので、最も鋭い方向の差はほとんどない。したがって、$\lambda_{\mathrm{max}}$ は損失ランドスケープのシャープさを示すことができるが、対応する固有方向の偏差は一般化の違いに寄与しない。損失スパイクは、単に$\lambda_{\mathrm{max}}$ の値を制御するのではなく、損失スパイクが一般化を改善するための基盤となるメカニズムであるかもしれない。

関連論文リスト

A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation [12.321507997896218]
一般訓練損失$F: mathbbRd から mathbbR$ への勾配流のダイナミクスについて検討する。
論文参考訳（メタデータ） (2025-05-26T16:12:45Z)
Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文参考訳（メタデータ） (2024-10-07T16:49:39Z)
Astral: training physics-informed neural networks with error majorants [45.24347017854392]
我々は、残差は、少なくとも、近似解の誤差の間接測度であると主張する。エラーメジャートはエラーの直接上限を与えるので、正確な解にどれだけ近いかを確実に推定することができる。
論文参考訳（メタデータ） (2024-06-04T13:11:49Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Optimal learning rate schedules in high-dimensional non-convex optimization problems [14.058580956992051]
学習率のスケジュールは、スピードアップと最適化の改善にユビキタスに使用されている。本稿では,この設定におけるニューラルスケジューリングの役割に関する最初の分析研究について述べる。
論文参考訳（メタデータ） (2022-02-09T15:15:39Z)
A variance principle explains why dropout finds flatter minima [0.0]
ドロップアウトによるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークを見出すことが示される。本稿では,損失景観のよりシャープな方向において,ノイズの分散が大きくなるという分散原理を提案する。
論文参考訳（メタデータ） (2021-11-01T15:26:19Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization [111.57403811375484]
学習開始当初から,勾配降下がフィッシャー情報マトリックスの痕跡を暗黙的にペナルティ化することを示す。暗黙的あるいは明示的な正規化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増加する可能性があることを強調する。
論文参考訳（メタデータ） (2020-12-28T11:17:46Z)
Optimization and Generalization of Shallow Neural Networks with Quadratic Activation Functions [11.70706646606773]
本研究では,一層ニューラルネットワークの最適化と一般化特性について検討する。本研究では,教師が小幅の隠蔽層を持つ学生と同じ構造を持つ教師学生シナリオについて考察する。同じ条件下では、経験的損失の勾配降下ダイナミクスが収束し、小さな一般化誤差をもたらすことが示される。
論文参考訳（メタデータ） (2020-06-27T22:13:20Z)
Implicitly Maximizing Margins with the Hinge Loss [0.0]
固定ステップサイズの線形分離可能なデータ上の線形分類器の場合、この修正されたヒンジ損失のマージンは$mathcalO(1/t )$で$ell$max-marginに収束する。実験結果から、この速度の増大はReLUネットワークへと引き継がれることが示唆された。
論文参考訳（メタデータ） (2020-06-25T10:04:16Z)
Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文参考訳（メタデータ） (2020-02-20T12:50:49Z)
Over-parameterized Adversarial Training: An Analysis Overcoming the Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文参考訳（メタデータ） (2020-02-16T20:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。