論文の概要: Rényi Sharpness: A Novel Sharpness that Strongly Correlates with Generalization
- arxiv url: http://arxiv.org/abs/2510.07758v1
- Date: Thu, 09 Oct 2025 03:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.855072
- Title: Rényi Sharpness: A Novel Sharpness that Strongly Correlates with Generalization
- Title(参考訳): Rényi Sharpness: 一般化と強く相関する新しいシャープネス
- Authors: Qiaozhe Zhang, Jun Sun, Ruijie Zhang, Yingzhuang Liu,
- Abstract要約: 我々は,損失ヘッセンの負のR'enyiエントロピー(古典的なシャノンエントロピーの一般化)として定義される,新しいシャープネス尺度(textitR'enyi sharpness)を提案する。
一般化と(R'enyi)シャープネスの関係を厳密に確立するために、R'enyiシャープネスという観点からいくつかの一般化境界を提供する。
R'enyiのシャープネスと一般化の間の強い相関(具体的にはケンドールのランク相関)を検証する実験を行った。
- 参考スコア(独自算出の注目度): 7.429398847018864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharpness (of the loss minima) is a common measure to investigate the generalization of neural networks. Intuitively speaking, the flatter the landscape near the minima is, the better generalization might be. Unfortunately, the correlation between many existing sharpness measures and the generalization is usually not strong, sometimes even weak. To close the gap between the intuition and the reality, we propose a novel sharpness measure, i.e., \textit{R\'enyi sharpness}, which is defined as the negative R\'enyi entropy (a generalization of the classical Shannon entropy) of the loss Hessian. The main ideas are as follows: 1) we realize that \textit{uniform} (identical) eigenvalues of the loss Hessian is most desirable (while keeping the sum constant) to achieve good generalization; 2) we employ the \textit{R\'enyi entropy} to concisely characterize the extent of the spread of the eigenvalues of loss Hessian. Normally, the larger the spread, the smaller the (R\'enyi) entropy. To rigorously establish the relationship between generalization and (R\'enyi) sharpness, we provide several generalization bounds in terms of R\'enyi sharpness, by taking advantage of the reparametrization invariance property of R\'enyi sharpness, as well as the trick of translating the data discrepancy to the weight perturbation. Furthermore, extensive experiments are conducted to verify the strong correlation (in specific, Kendall rank correlation) between the R\'enyi sharpness and generalization. Moreover, we propose to use a variant of R\'enyi Sharpness as regularizer during training, i.e., R\'enyi Sharpness Aware Minimization (RSAM), which turns out to outperform all existing sharpness-aware minimization methods. It is worthy noting that the test accuracy gain of our proposed RSAM method could be as high as nearly 2.5\%, compared against the classical SAM method.
- Abstract(参考訳): 損失最小値のシャープネスは、ニューラルネットワークの一般化を研究するための一般的な尺度である。
直感的には、ミニマの近くにある風景が平らになればなるほど、より一般化されるかもしれない。
残念ながら、多くの既存のシャープネス測度と一般化の相関は通常強くなく、時には弱くなる。
直観と現実のギャップを埋めるために、ロス・ヘッセンの負のR'enyiエントロピー(古典的なシャノンエントロピーの一般化)として定義される新しいシャープネス測度、すなわち \textit{R\'enyi sharpness} を提案する。
主な考え方は以下の通りである。
1) 損失 Hessian の \textit{uniform} (恒等的) 固有値が(和定数を維持しながら)良い一般化を達成するのに最も望ましいことに気づく。
2) 損失ヘッセンの固有値の拡散の程度を簡潔に特徴づけるために, textit{R\'enyi entropy} を用いる。
通常、拡散が大きいほど、(R\'enyi)エントロピーが小さくなる。
一般化と(R'enyi)のシャープネスの関係を厳密に確立するために、R'enyiのシャープネスの再パラメータ化不変性を生かして、R'enyiのシャープネスの項におけるいくつかの一般化境界を提供する。
さらに、R'enyiのシャープネスと一般化の間の強い相関(具体的にはケンドールのランク相関)を検証するために広範な実験が行われた。
さらに,R'enyi Sharpness Aware Minimization (RSAM) の学習において,R'enyi Sharpnessの変種を正則化器として用いることを提案する。
提案手法の精度向上は古典的SAM法に比べて2.5倍近く高いことが注目に値する。
関連論文リスト
- Flatness After All? [6.977444416330261]
我々は、ヘッセンの柔らかいランク測度を用いて平坦度を測定することで一般化を評価することができると論じる。
非校正モデルでは、ソフトランクに基づく平坦度尺度をよく知られた竹内情報基準に接続する。
論文 参考訳(メタデータ) (2025-06-21T20:33:36Z) - Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization [12.58055746943097]
我々は、勾配降下の一般化性能を包括的に理解するには、これらの様々な形態の暗黙正則化の間の相互作用を分析する必要があると論じる。
単純な回帰タスクで訓練された対角線ネットワークに対して、暗黙バイアスだけでは一般化誤差を最小化しないことを示す。
論文 参考訳(メタデータ) (2025-05-27T16:51:06Z) - A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - A Modern Look at the Relationship between Sharpness and Generalization [64.03012884804458]
ミニマのシャープ性は、ディープネットワークの一般化と相関できる有望な量である。
シャープネスは、ニューラルネットワークの再パラメータ化の下では不変ではない。
シャープネスは一般化とよく相関しないことを示す。
論文 参考訳(メタデータ) (2023-02-14T12:38:12Z) - Surrogate Gap Minimization Improves Sharpness-Aware Training [52.58252223573646]
Surrogate textbfGap Guided textbfSharpness-textbfAware textbfMinimization (GSAM)は、Sharpness-Aware Minimization (SAM)に対する新しい改善であり、計算オーバーヘッドが無視できる。
GSAMは小さい損失(ステップ1)と低いシャープネス(ステップ2)の両方の領域を求め、高い一般化能力を持つモデルを生み出す。
論文 参考訳(メタデータ) (2022-03-15T16:57:59Z) - Interpolation can hurt robust generalization even when there is no noise [76.3492338989419]
リッジの正規化による一般化の回避は,ノイズがなくても大幅に一般化できることを示す。
この現象は線形回帰と分類の両方のロバストなリスクを証明し、したがってロバストなオーバーフィッティングに関する最初の理論的結果を与える。
論文 参考訳(メタデータ) (2021-08-05T23:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。