論文の概要: Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization
- arxiv url: http://arxiv.org/abs/2505.21423v1
- Date: Tue, 27 May 2025 16:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.813063
- Title: Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization
- Title(参考訳): 安定の端における対立バイアス:ノルム対シャープネス正規化
- Authors: Vit Fojtik, Maria Matveev, Hung-Hsu Chou, Gitta Kutyniok, Johannes Maly,
- Abstract要約: 我々は、勾配降下の一般化性能を包括的に理解するには、これらの様々な形態の暗黙正則化の間の相互作用を分析する必要があると論じる。
単純な回帰タスクで訓練された対角線ネットワークに対して、暗黙バイアスだけでは一般化誤差を最小化しないことを示す。
- 参考スコア(独自算出の注目度): 12.58055746943097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A widely believed explanation for the remarkable generalization capacities of overparameterized neural networks is that the optimization algorithms used for training induce an implicit bias towards benign solutions. To grasp this theoretically, recent works examine gradient descent and its variants in simplified training settings, often assuming vanishing learning rates. These studies reveal various forms of implicit regularization, such as $\ell_1$-norm minimizing parameters in regression and max-margin solutions in classification. Concurrently, empirical findings show that moderate to large learning rates exceeding standard stability thresholds lead to faster, albeit oscillatory, convergence in the so-called Edge-of-Stability regime, and induce an implicit bias towards minima of low sharpness (norm of training loss Hessian). In this work, we argue that a comprehensive understanding of the generalization performance of gradient descent requires analyzing the interaction between these various forms of implicit regularization. We empirically demonstrate that the learning rate balances between low parameter norm and low sharpness of the trained model. We furthermore prove for diagonal linear networks trained on a simple regression task that neither implicit bias alone minimizes the generalization error. These findings demonstrate that focusing on a single implicit bias is insufficient to explain good generalization, and they motivate a broader view of implicit regularization that captures the dynamic trade-off between norm and sharpness induced by non-negligible learning rates.
- Abstract(参考訳): 過パラメータ化ニューラルネットワークの顕著な一般化能力に関する広く信じられている説明は、トレーニングに使用される最適化アルゴリズムが良性解に対する暗黙の偏見を誘導するものである。
これを理論的に把握するために、近年の研究では、学習率の低下を前提として、簡易なトレーニング設定における勾配降下とその変種について検討している。
これらの研究は、回帰の$\ell_1$-norm最小化パラメータや分類のmax-margin解など、暗黙正則化の様々な形態を明らかにしている。
同時に、標準的な安定性閾値を超える中等度から大規模な学習速度は、振動、いわゆるエッジ・オブ・ステイビリティ(Edge-of-Stability)体制の収束をもたらし、低シャープネス(Hessian)の最小化(トレーニング損失のノルム)に対して暗黙の偏見をもたらすことが実証された。
本研究では、勾配降下の一般化性能を包括的に理解するには、これらの様々な形態の暗黙正則化の間の相互作用を分析する必要があると論じる。
学習速度は,学習モデルの低パラメータノルムと低シャープネスのバランスを実証的に示す。
さらに、単純な回帰タスクで訓練された対角線ネットワークについて、暗黙バイアスだけでは一般化誤差を最小化できないことを証明した。
これらの結果は,1つの暗黙バイアスに注目することは,優れた一般化を説明するには不十分であることを示し,非無視的学習率によって引き起こされるノルムと鋭さのダイナミックなトレードオフを捉える暗黙の規則化のより広い視点を動機付けている。
関連論文リスト
- Variational Deep Learning via Implicit Regularization [20.449095674026363]
最適化手法を用いて,変分深度ネットワークを暗黙的に正規化する方法を示す。
過度にパラメータ化された線形モデルの場合、勾配降下の帰納バイアスを完全に特徴づける。
論文 参考訳(メタデータ) (2025-05-26T17:15:57Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Towards Understanding Generalization via Decomposing Excess Risk
Dynamics [13.4379473119565]
一般化力学を解析してアルゴリズム依存境界(安定性など)を導出する。
ニューラルネットは、ノイズの嵌合時に緩やかな収束率を示すという観測から着想を得て、余剰リスクダイナミクスを分解することを提案する。
分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。
論文 参考訳(メタデータ) (2021-06-11T03:42:45Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - A Random Matrix Theory Approach to Damping in Deep Learning [0.7614628596146599]
深層学習における適応的勾配法と非適応的勾配法との違いは推定ノイズの増加に起因すると推測する。
線形縮退推定にインスパイアされた2次オプティマイザのためのランダム行列理論に基づくダンピング学習器を開発した。
論文 参考訳(メタデータ) (2020-11-15T18:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。