論文の概要: Grokking or Glitching? How Low-Precision Drives Slingshot Loss Spikes
- arxiv url: http://arxiv.org/abs/2605.06152v2
- Date: Tue, 12 May 2026 10:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.728855
- Title: Grokking or Glitching? How Low-Precision Drives Slingshot Loss Spikes
- Title(参考訳): グルークかグリッチか? スリングショットの低速駆動はいかにスパイクをなくすか
- Authors: Liu Hanqing, Jianjun Cao, Yuanze Li, Zijian Zhou,
- Abstract要約: ディープニューラルネットワークは、非正規化された長期トレーニング中に周期的な損失スパイクを示す。
本稿では,この現象が浮動小数点演算の精度限界の結果であることを示す。
我々はこのメカニズムがスリングショットのスパイク前の急激なノルム成長を説明できることを示した。
- 参考スコア(独自算出の注目度): 4.886486588387005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks exhibit periodic loss spikes during unregularized long-term training, a phenomenon known as the "Slingshot Mechanism." Existing work usually attributes this to intrinsic optimization dynamics, but its triggering mechanism remains unclear. This paper proves that this phenomenon is a result of floating-point arithmetic precision limits. As training enters a high-confidence stage, the difference between the correct-class logit and the other logits may exceed the absorption-error threshold. Then during backpropagation, the gradient of the correct class is rounded exactly to zero, while the gradients of the incorrect classes remain nonzero. This breaks the zero-sum constraint of gradients across classes and introduces a systematic drift in the parameter update of the classifier layer. We prove that this drift forms a positive feedback loop with the feature, causing the global classifier mean and the global feature mean to grow exponentially. We call this mechanism Numerical Feature Inflation (NFI). This mechanism explains the rapid norm growth before a Slingshot spike, the subsequent reappearance of gradients, and the resulting loss spike. We further show that NFI is not equivalent to an observed loss spike: in more practical tasks, partial absorption may not produce visible spikes, but it can still break the zero-sum constraint and drive rapid growth of parameter norms. Our results reinterpret Slingshot as a numerical dynamic of finite-precision training, and provide a testable explanation for abnormal parameter growth and logit divergence in late-stage training.
- Abstract(参考訳): ディープニューラルネットワークは、非正規化された長期トレーニング中に周期的な損失スパイクを示し、これは「スリングショット機構」として知られる現象である。
既存の作業は通常、これを本質的な最適化力学に帰着するが、そのトリガー機構はいまだ不明である。
本稿では,この現象が浮動小数点演算の精度限界の結果であることを示す。
トレーニングが高信頼の段階に入ると、正しいクラスロジットと他のロジットの違いが吸収エラー閾値を超える可能性がある。
そして、バックプロパゲーションの間、正しいクラスの勾配は正確に0に丸められ、不正確なクラスの勾配は 0 に留まる。
これはクラス間の勾配のゼロサム制約を破り、分類器層のパラメータ更新に体系的なドリフトを導入する。
このドリフトが特徴と正のフィードバックループを形成し、グローバルな分類器の平均とグローバルな特徴が指数関数的に増加することを証明した。
我々はこのメカニズムを数値的特徴インフレーション (NFI) と呼ぶ。
このメカニズムは、スリングショットのスパイク前の急激なノルム成長、その後の勾配の再出現、そして結果として生じる損失スパイクを説明する。
さらに、NFIは観測された損失スパイクと等価ではなく、より実践的なタスクでは部分吸収は可視スパイクを生じないが、それでもゼロサム制約を破り、パラメータノルムの急速な成長を引き起こす可能性がある。
本研究では,Slingshotを有限精度トレーニングの数値力学として再解釈し,後期訓練におけるパラメータの異常成長とロジットのばらつきを検証可能な説明を与える。
関連論文リスト
- The Geometry of Grokking: Norm Minimization on the Zero-Loss Manifold [5.076419064097734]
暗記後の学習は、制約付き最適化のレンズを通して理解することができると論じる。
勾配降下は、零損失多様体上の重みノルムを効果的に最小化することを示す。
実験により,予測勾配を用いた学習過程のシミュレーションは,グルーキングの遅延一般化と表現学習特性の両方を再現することを確認した。
論文 参考訳(メタデータ) (2025-11-02T18:44:42Z) - Description of the Training Process of Neural Networks via Ergodic Theorem : Ghost nodes [3.637162892228131]
本稿では、訓練勾配降下(SGD)による深層ニューラルネットワークの理解と加速のための統一的な枠組みを提案する。
我々は,安定剤に対する真の収束を識別する,最も大きなリャプノフ指数の実用診断,実行推定を導入する。
本稿では,補助的なゴースト出力ノードを付加した標準分類器のゴーストカテゴリ拡張を提案する。
論文 参考訳(メタデータ) (2025-07-01T17:54:35Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Perturbation Analysis of Neural Collapse [24.94449183555951]
分類のためのディープニューラルネットワークのトレーニングには、ゼロトレーニングエラー点を超えるトレーニング損失を最小限にすることが含まれる。
最近の研究は、全ての最小化器が正確な崩壊を示す理想化された制約のない特徴モデルを通して、この挙動を分析している。
本稿では,この現象を,予め定義された特徴行列の近傍に留まらせることで,よりリッチなモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T17:46:03Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。