論文の概要: Flatness After All?
- arxiv url: http://arxiv.org/abs/2506.17809v1
- Date: Sat, 21 Jun 2025 20:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.595757
- Title: Flatness After All?
- Title(参考訳): 結局のところ、平らさ?
- Authors: Neta Shoham, Liron Mor-Yosef, Haim Avron,
- Abstract要約: 我々は、ヘッセンの柔らかいランク測度を用いて平坦度を測定することで一般化を評価することができると論じる。
非校正モデルに対しては、よく知られた竹内情報基準に平坦度尺度を接続し、過度に自信のないモデルに対する一般化ギャップの信頼性評価を行う。
- 参考スコア(独自算出の注目度): 6.698677477097004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent literature has examined the relationship between the curvature of the loss function at minima and generalization, mainly in the context of overparameterized networks. A key observation is that "flat" minima tend to generalize better than "sharp" minima. While this idea is supported by empirical evidence, it has also been shown that deep networks can generalize even with arbitrary sharpness, as measured by either the trace or the spectral norm of the Hessian. In this paper, we argue that generalization could be assessed by measuring flatness using a soft rank measure of the Hessian. We show that when the common neural network model (neural network with exponential family negative log likelihood loss) is calibrated, and its prediction error and its confidence in the prediction are not correlated with the first and the second derivatives of the network's output, our measure accurately captures the asymptotic expected generalization gap. For non-calibrated models, we connect our flatness measure to the well-known Takeuchi Information Criterion and show that it still provides reliable estimates of generalization gaps for models that are not overly confident. Experimental results indicate that our approach offers a robust estimate of the generalization gap compared to baselines.
- Abstract(参考訳): 近年の文献では,損失関数のミニマにおける曲率と一般化の関係を,主に過パラメータ化ネットワークの文脈で検討している。
キーとなる観察は、「平ら」のミニマが「シャープ」のミニマよりも一般化する傾向があることである。
この考えは経験的証拠によって裏付けられているが、ディープ・ネットワークは、ヘッセンのトレースあるいはスペクトルノルムによって測定されるように、任意の鋭さででも一般化可能であることも示されている。
本稿では,ヘッセンの柔らかいランク測度を用いて平坦度を測定することで一般化を評価することができると論じる。
ニューラルネットワークモデル(指数関数型負の対数損失を持つニューラルネットワーク)を校正し,その予測誤差とその予測に対する信頼度が,ネットワーク出力の第1および第2の導関数と相関しない場合,提案手法は漸近的な一般化ギャップを正確に把握することを示す。
非校正モデルに対しては、よく知られた竹内情報基準に平坦度尺度を接続し、過度に自信のないモデルに対する一般化ギャップの信頼性評価を行う。
実験結果から,本手法はベースラインと比較して,一般化ギャップを頑健に推定できることが示唆された。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - On progressive sharpening, flat minima and generalisation [39.91683439206866]
我々は、トレーニングサンプルに対して、損失ヘッセンと入力出力ヤコビアンを結びつけるアンザッツを接地する。
次に、モデルの入出力ヤコビアンがそのリプシッツノルムに近似する程度を定量化する一連の理論的結果を証明する。
我々は、我々のアンザッツと理論結果を用いて、最近観測された進歩的シャープニング現象の新たな説明を行う。
論文 参考訳(メタデータ) (2023-05-24T03:44:50Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Flat Seeking Bayesian Neural Networks [32.61417343756841]
我々は、シャープネスを意識した後部における理論、ベイズ的設定、および変分推論アプローチを開発する。
具体的には、シャープネス認識後部から採取したモデルと、このシャープネス認識後部を推定する最適な近似後部モデルにより、平坦性が向上した。
我々は最先端のベイズニューラルネットワークによるシャープネス認識後部を応用して実験を行う。
論文 参考訳(メタデータ) (2023-02-06T11:40:44Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Robustness to Pruning Predicts Generalization in Deep Neural Networks [29.660568281957072]
トレーニングの損失に悪影響を与えることなく、pruning中に維持できるネットワークのパラメータの最小の屈折であるprunabilityを紹介します。
この測定は、CIFAR-10で訓練された大規模な畳み込みネットワーク全体のモデル一般化性能を非常に予測できることを示した。
論文 参考訳(メタデータ) (2021-03-10T11:39:14Z) - Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks [65.24701908364383]
我々は、ReLUネットワーク上の不確実性に対する十分条件が「少しベイズ校正される」ことを示す。
さらに,これらの知見を,共通深部ReLUネットワークとLaplace近似を用いた各種標準実験により実証的に検証した。
論文 参考訳(メタデータ) (2020-02-24T08:52:06Z) - Bayesian Deep Learning and a Probabilistic Perspective of Generalization [56.69671152009899]
ディープアンサンブルはベイズ辺化を近似する有効なメカニズムであることを示す。
また,アトラクションの流域内での辺縁化により,予測分布をさらに改善する関連手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T15:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。