論文の概要: A Mechanism Study of Delayed Loss Spikes in Batch-Normalized Linear Models
- arxiv url: http://arxiv.org/abs/2604.16809v1
- Date: Sat, 18 Apr 2026 03:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.183777
- Title: A Mechanism Study of Delayed Loss Spikes in Batch-Normalized Linear Models
- Title(参考訳): Batch-Normalized Linear Modelにおける遅延損失スパイクのメカニズム
- Authors: Peifeng Gao, Wenyi Fang, Yang Zheng, Difan Zou,
- Abstract要約: 神経ネットワークトレーニングでは遅延損失スパイクが報告されている。
既存の理論は主に、過度に大きな固定学習率によって引き起こされた初期の非単調な振る舞いを説明する。
正規化は、有効学習率を徐々に増加させることで不安定を遅らせることができる。
- 参考スコア(独自算出の注目度): 28.92895415506565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Delayed loss spikes have been reported in neural-network training, but existing theory mainly explains earlier non-monotone behavior caused by overly large fixed learning rates. We study one stylized hypothesis: normalization can postpone instability by gradually increasing the effective learning rate during otherwise stable descent. To test this hypothesis at theorem level, we analyze batch-normalized linear models. Our flagship result concerns whitened square-loss linear regression, where we derive explicit no-rising-edge and delayed-onset conditions, bound the waiting time to directional onset, and show that the rising edge self-stabilizes within finitely many iterations. Combined with a square-loss decomposition, this yields a concrete delayed-spike mechanism in the whitened regime. For logistic regression, under highly restrictive active-margin assumptions, we prove only a supporting finite-horizon directional precursor in a knife-edge regime, with an optional appendix-only loss lower bound under an extra non-degeneracy condition. The paper should therefore be read as a stylized mechanism study rather than a general explanation of neural-network loss spikes. Within that scope, the results isolate one concrete delayed-instability pathway induced by batch normalization.
- Abstract(参考訳): ニューラルネットワークのトレーニングでは遅延損失のスパイクが報告されているが、既存の理論は主に、過度に大きな固定学習率によって引き起こされた初期の非単調な振る舞いを説明するものである。
正規化は、非定常降下時の効果的な学習率を徐々に増加させることにより、不安定を遅らせることができる。
この仮説を定理レベルで検証するために、バッチ正規化線形モデルを解析する。
フラッグシップの結果は白色四角いリニアレグレッション(英語版)に関係しており、そこでは明示的なノライジングエッジと遅延オンセット条件を導出し、待ち時間を方向のオンセットに束縛し、上昇するエッジが有限個のイテレーションで自己安定化することを示す。
四角い光沢分解と組み合わせることで、白く塗られた状態においてコンクリート製の遅延スパイク機構が得られる。
ロジスティック回帰では、高度に制限されたアクティブマージン仮定の下では、追加の非退化条件下では、オプションの付録のみの損失が低いナイフエッジ方式で支持される有限水平方向前駆体のみが証明される。
したがって、この論文は、ニューラルネットワークの損失スパイクの一般的な説明よりも、スタイリングされたメカニズムスタディとして読むべきである。
その範囲内で、結果はバッチ正規化によって誘導される1つの具体的な遅延不安定経路を分離する。
関連論文リスト
- Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Description of the Training Process of Neural Networks via Ergodic Theorem : Ghost nodes [3.637162892228131]
本稿では、訓練勾配降下(SGD)による深層ニューラルネットワークの理解と加速のための統一的な枠組みを提案する。
我々は,安定剤に対する真の収束を識別する,最も大きなリャプノフ指数の実用診断,実行推定を導入する。
本稿では,補助的なゴースト出力ノードを付加した標準分類器のゴーストカテゴリ拡張を提案する。
論文 参考訳(メタデータ) (2025-07-01T17:54:35Z) - Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization [12.58055746943097]
我々は、勾配降下の一般化性能を包括的に理解するには、これらの様々な形態の暗黙正則化の間の相互作用を分析する必要があると論じる。
単純な回帰タスクで訓練された対角線ネットワークに対して、暗黙バイアスだけでは一般化誤差を最小化しないことを示す。
論文 参考訳(メタデータ) (2025-05-27T16:51:06Z) - Grokking at the Edge of Linear Separability [1.024113475677323]
グルーキングは非単調なテスト損失行動を伴う一般化が遅れている。
問題のパラメータが臨界点に近くても、グラッキングは自然に発生する。
論文 参考訳(メタデータ) (2024-10-06T14:08:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。