論文の概要: Does Weight Decay Enhance Training Stability?
- arxiv url: http://arxiv.org/abs/2605.16622v1
- Date: Fri, 15 May 2026 20:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.808633
- Title: Does Weight Decay Enhance Training Stability?
- Title(参考訳): トレーニングの安定性は低下するか?
- Authors: Marius Saether, Amir Kolic, Tomaso Poggio, Pierfrancesco Beneventano,
- Abstract要約: 重量減衰がパラメータ空間力学と損失シャープネスにどのように影響するかを検討する。
パラメータベクトルとシャープネス勾配のグローバルアライメントを相転移の機械的ドライバとして同定する。
このことは、凸・四角形から得られた曲率しきい値が、正則化下での信頼性の高い安定性診断にはならないことを示している。
- 参考スコア(独自算出の注目度): 0.5799785223420272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern deep learning, weight decay is often credited with "stabilizing" training dynamics, diverging from its classical role as a static regularization penalty. We investigate a fundamental question: *does weight decay stabilize training dynamics, and if so, through which mechanism?* Indeed, training stability is understood through different but related notions in the literature. We consider how weight decay affects the parameter-space dynamics and loss sharpness by analyzing its effects at the \emph{Edge of Stability} (EoS). We show that weight decay robustly slows *progressive sharpening}. Furthermore, we uncover a striking architecture-dependent phase transition. In CNNs, weight decay dampens the oscillations at the EoS, while in MLPs, increasing weight decay causes a phase transition in which the sharpness stabilizes at a threshold significantly below the theoretical $\frac{2}η$ boundary. We develop a mathematical framework that accurately models these phenomena and identify the global alignment of the parameter vector and the sharpness gradient as the mechanistic driver of the phase transition. Importantly, we show that these phenomena translate into stability in terms of search in function-space (NTK). Last, this shows that curvature thresholds obtained from convex/quadratic heuristics may not be reliable stability diagnostics under regularization.
- Abstract(参考訳): 現代のディープラーニングでは、ウェイト崩壊は静的正規化のペナルティとして古典的な役割から逸脱し、しばしば「安定化」訓練のダイナミクスとして認められている。
ウェイト崩壊はトレーニング力学を安定化させるのか?
※実際、教育の安定性は文学における異なるが関連する概念を通して理解されている。
重みの減衰がパラメータ空間の力学と損失のシャープネスにどう影響するかを, 安定のemph{Edge} (EoS) で解析することによって検討する。
重量減衰が強固に遅くなることが示される。
さらに、アーキテクチャに依存した顕著なフェーズ移行を明らかにします。
CNNでは、重みの減衰はEoSの振動を減衰させるが、MLPでは、重みの減衰は、理論的な$\frac{2}η$境界よりかなり低い閾値で鋭さが安定化する相転移を引き起こす。
我々は,これらの現象を正確にモデル化し,パラメータベクトルとシャープネス勾配のグローバルアライメントを相転移の機械的ドライバとして同定する数学的枠組みを開発する。
重要なことは、これらの現象が関数空間(NTK)の探索における安定性に変換されることである。
最後に、凸・四次ヒューリスティックスから得られた曲率しきい値が、正則化下での信頼性の高い安定性診断にはならないことを示す。
関連論文リスト
- Detecting Deepfakes via Hamiltonian Dynamics [58.881686693914446]
本稿では,静的パターン認識から動的安定性解析へ移行するディープフェイク検出の新しい視点を提案する。
私たちのアプローチは、物理学にインスパイアされた先駆者によって動機付けられています。
Hamiltonian Action Anomaly Detection (HAAD) は、最先端のベースラインの評価に優れる。
論文 参考訳(メタデータ) (2026-05-06T01:55:38Z) - Learning to Forget: Continual Learning with Adaptive Weight Decay [30.558842015806363]
有限能力の連続学習エージェントは、新しい知識の獲得と古い知識の保持のバランスをとる必要がある。
ウェイト崩壊は、忘れるメカニズムと見なされ、ウェイトに格納された情報を徐々に破棄することで、この役割を果たすことができる。
本稿では, パラメータごとの減量率を近似的メタ勾配降下法によりオンラインに適応させる適応減衰法(Adaptive Decay, FADE)について紹介する。
論文 参考訳(メタデータ) (2026-04-29T18:01:13Z) - Stability as a Liability:Systematic Breakdown of Linguistic Structure in LLMs [5.96875296117642]
安定なパラメータトラジェクトリが定常解を導出し、経験的分布へのKLの分岐を最小化することを示す。
制御されたフィードバックベースのトレーニングフレームワークを用いて,この効果を実証的に検証する。
これは、最適化の安定性と生成的表現性は本質的に一致していないことを示し、安定性のみが生成的品質の指標として不十分であることを示している。
論文 参考訳(メタデータ) (2026-01-26T15:34:50Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of
Stability [40.17821914923602]
安定性の端における勾配降下は、制約$S(theta) le 2/eta$ の下で、投影勾配降下 (PGD) に暗黙的に従うことを示す。
本分析は, PGD軌道からの損失, 鋭さ, 偏差を, トレーニングを通して正確に予測する。
論文 参考訳(メタデータ) (2022-09-30T17:15:12Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective [90.39123717733334]
そこで本研究では,Shduled Weight Decay (SWD) 法と呼ばれる,減量のための最初の実用的なスケジューラを提案する。
我々の実験は、SWDが実際に大きな勾配ノルムを緩和し、適応モーメント推定(Adam)の従来の定重崩壊戦略を著しく上回っていることも裏付けている。
論文 参考訳(メタデータ) (2020-11-23T00:39:49Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。