論文の概要: Leveraging Flatness to Improve Information-Theoretic Generalization Bounds for SGD
- arxiv url: http://arxiv.org/abs/2601.01465v1
- Date: Sun, 04 Jan 2026 10:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.370611
- Title: Leveraging Flatness to Improve Information-Theoretic Generalization Bounds for SGD
- Title(参考訳): SGDのための情報理論一般化境界の改善のための平坦性の活用
- Authors: Ze Peng, Jian Zhang, Yisen Wang, Lei Qi, Yinghuan Shi, Yang Gao,
- Abstract要約: 情報理論(IT)一般化境界は学習アルゴリズムの一般化の研究に用いられている。
本稿では, 平坦度の高いSGDに対して, より平坦度の高いITを導出する。
- 参考スコア(独自算出の注目度): 64.08556301183664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information-theoretic (IT) generalization bounds have been used to study the generalization of learning algorithms. These bounds are intrinsically data- and algorithm-dependent so that one can exploit the properties of data and algorithm to derive tighter bounds. However, we observe that although the flatness bias is crucial for SGD's generalization, these bounds fail to capture the improved generalization under better flatness and are also numerically loose. This is caused by the inadequate leverage of SGD's flatness bias in existing IT bounds. This paper derives a more flatness-leveraging IT bound for the flatness-favoring SGD. The bound indicates the learned models generalize better if the large-variance directions of the final weight covariance have small local curvatures in the loss landscape. Experiments on deep neural networks show our bound not only correctly reflects the better generalization when flatness is improved, but is also numerically much tighter. This is achieved by a flexible technique called "omniscient trajectory". When applied to Gradient Descent's minimax excess risk on convex-Lipschitz-Bounded problems, it improves representative IT bounds' $Ω(1)$ rates to $O(1/\sqrt{n})$. It also implies a by-pass of memorization-generalization trade-offs.
- Abstract(参考訳): 情報理論(IT)一般化境界は学習アルゴリズムの一般化の研究に用いられている。
これらの境界は本質的にデータとアルゴリズムに依存しているので、データとアルゴリズムの特性を利用してより厳密な境界を導出することができる。
しかし、SGDの一般化には平坦性バイアスが不可欠であるが、これらの境界はより良い平坦性の下で改良された一般化を捉えることができず、数値的にもゆるい。
これは、既存のIT境界におけるSGDの平坦性バイアスの不十分な活用によって引き起こされる。
本稿では, 平坦度の高いSGDに対して, より平坦度の高いITを導出する。
境界は、最終重み共分散の大きな分散方向が損失ランドスケープに小さな局所曲率を持つ場合、学習されたモデルがより良く一般化することを示している。
ディープニューラルネットワークの実験は、平坦性が改善されたときのより良い一般化を正しく反映するだけでなく、数値的にはるかに厳密であることを示している。
これは「全軌道(omniscient trajectory)」と呼ばれる柔軟な手法によって達成される。
凸リプシッツ境界問題に対するグラディエント・ディクストのミニマックス超過リスクに適用すると、代表ITバウンドの$Ω(1)$レートを$O(1/\sqrt{n})$に改善する。
これはまた、記憶一般化トレードオフのバイパスを意味する。
関連論文リスト
- Tight Generalization Error Bounds for Stochastic Gradient Descent in Non-convex Learning [1.8136828360307795]
本研究では、ディープネットワークにおける非有界データを保証するために、より厳密な項を確立するために、グラディエント・Descent(SGD)を使用できることを示す。
MNISTARはトレーニングおよび神経訓練におけるT2pm-SGDの有効性を示す。
論文 参考訳(メタデータ) (2025-06-23T13:47:25Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Understanding the Generalization Ability of Deep Learning Algorithms: A
Kernelized Renyi's Entropy Perspective [11.255943520955764]
本稿では,Renyiのエントロピーをカーネル化した新しい情報理論尺度を提案する。
我々は,Renyiエントロピーのカーネル化の下で,勾配/ランジュバン降下(SGD/SGLD)学習アルゴリズムの一般化誤差境界を確立する。
我々の情報理論的境界は勾配の統計に依存しており、現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-05-02T01:17:15Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。