論文の概要: Loss Spike in Training Neural Networks
- arxiv url: http://arxiv.org/abs/2305.12133v1
- Date: Sat, 20 May 2023 07:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:27:21.967561
- Title: Loss Spike in Training Neural Networks
- Title(参考訳): ニューラルネットワークのトレーニングにおける損失スパイク
- Authors: Zhongwang Zhang, Zhi-Qin John Xu
- Abstract要約: ニューラルネットワークトレーニング中に観察される損失スパイクのメカニズムについて検討した。
この作業では、$lambda_mathrmmax$ flatness と generalization のリンクを再検討する。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the mechanism underlying loss spikes observed during
neural network training. When the training enters a region, which has a
smaller-loss-as-sharper (SLAS) structure, the training becomes unstable and
loss exponentially increases once it is too sharp, i.e., the rapid ascent of
the loss spike. The training becomes stable when it finds a flat region. The
deviation in the first eigen direction (with maximum eigenvalue of the loss
Hessian ($\lambda_{\mathrm{max}}$) is found to be dominated by low-frequency.
Since low-frequency is captured very fast (frequency principle), the rapid
descent is then observed. Inspired by our analysis of loss spikes, we revisit
the link between $\lambda_{\mathrm{max}}$ flatness and generalization. For real
datasets, low-frequency is often dominant and well-captured by both the
training data and the test data. Then, a solution with good generalization and
a solution with bad generalization can both learn low-frequency well, thus,
they have little difference in the sharpest direction. Therefore, although
$\lambda_{\mathrm{max}}$ can indicate the sharpness of the loss landscape,
deviation in its corresponding eigen direction is not responsible for the
generalization difference. We also find that loss spikes can facilitate
condensation, i.e., input weights evolve towards the same, which may be the
underlying mechanism for why the loss spike improves generalization, rather
than simply controlling the value of $\lambda_{\mathrm{max}}$.
- Abstract(参考訳): 本研究では,ニューラルネットワークトレーニング中に観測される損失スパイクのメカニズムについて検討する。
トレーニングが小さなロス・アズ・シャーパー(SLAS)構造を持つ領域に入ると、トレーニングが不安定になり、シャープすぎると損失が指数関数的に増加する。
訓練は平坦な領域を見つけると安定する。
第1固有方向の偏差(損失ヘッセン(\lambda_{\mathrm{max}}$)の最大固有値を持つ)は低周波で支配される。
低周波が非常に速い(周波数原理)ので、急降下が観測される。
損失スパイクの分析に触発されて、$\lambda_{\mathrm{max}}$flatness と一般化のリンクを再検討した。
実際のデータセットでは、低周波はトレーニングデータとテストデータの両方で支配的であり、よく把握される。
そして、良い一般化の解と悪い一般化の解はどちらも低周波をよく学習できるので、最も鋭い方向の差はほとんどない。
したがって、$\lambda_{\mathrm{max}}$ は損失ランドスケープのシャープさを示すことができるが、対応する固有方向の偏差は一般化の違いに寄与しない。
損失スパイクは、単に$\lambda_{\mathrm{max}}$ の値を制御するのではなく、損失スパイクが一般化を改善するための基盤となるメカニズムであるかもしれない。
関連論文リスト
- Convex Relaxations of ReLU Neural Networks Approximate Global Optima in
Polynomial Time [54.01594785269913]
本稿では, 重み劣化と凸緩和に則った2層ReLUネットワーク間の最適性ギャップについて述べる。
トレーニングデータがランダムである場合、元の問題と緩和の間の相対的な最適性ギャップは、サンプルの勾配によって境界付けられることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Noisy Interpolation Learning with Shallow Univariate ReLU Networks [33.900009202637285]
Mallinar et. al. 2022 は、ニューラルネットワークはしばしば誘惑的な過剰適合を示すが、人口リスクはベイズ最適誤差に収束しないと指摘した。
最小重み付き回帰の過度適合挙動を厳密に分析した。
論文 参考訳(メタデータ) (2023-07-28T08:41:12Z) - Implicit Regularization Leads to Benign Overfitting for Sparse Linear
Regression [16.551664358490658]
ディープラーニングでは、しばしばトレーニングプロセスは補間子(トレーニング損失0のソリューション)を見つけるが、テスト損失は依然として低い。
良性オーバーフィッティングの一般的なメカニズムは暗黙の正則化であり、そこでは、トレーニングプロセスが補間子にさらなる特性をもたらす。
勾配勾配勾配による新モデルの訓練は, ほぼ最適試験損失を伴う補間器に導かれることを示す。
論文 参考訳(メタデータ) (2023-02-01T05:41:41Z) - Learning with Noisy Labels via Sparse Regularization [76.31104997491695]
ノイズの多いラベルで学習することは、正確なディープニューラルネットワークをトレーニングするための重要なタスクである。
クロスエントロピー(Cross Entropy, CE)など、一般的に使われている損失関数は、ノイズラベルへの過度なオーバーフィットに悩まされている。
我々は, スパース正規化戦略を導入し, ワンホット制約を近似する。
論文 参考訳(メタデータ) (2021-07-31T09:40:23Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Implicitly Maximizing Margins with the Hinge Loss [0.0]
固定ステップサイズの線形分離可能なデータ上の線形分類器の場合、この修正されたヒンジ損失のマージンは$mathcalO(1/t )$で$ell$max-marginに収束する。
実験結果から、この速度の増大はReLUネットワークへと引き継がれることが示唆された。
論文 参考訳(メタデータ) (2020-06-25T10:04:16Z) - Flatness is a False Friend [0.7614628596146599]
ヘッセンに基づく平坦性の測度は、一般化に関連して議論され、使用され、示されている。
交叉エントロピー損失下でのフィードフォワードニューラルネットワークでは、大きな重みを持つ低損失解が、平らさの小さなヘッセン的基準を持つことを期待する。
論文 参考訳(メタデータ) (2020-06-16T11:55:24Z) - Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。
本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文 参考訳(メタデータ) (2020-02-20T12:50:49Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。