論文の概要: On the Superlinear Relationship between SGD Noise Covariance and Loss Landscape Curvature
- arxiv url: http://arxiv.org/abs/2602.05600v1
- Date: Thu, 05 Feb 2026 12:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.926159
- Title: On the Superlinear Relationship between SGD Noise Covariance and Loss Landscape Curvature
- Title(参考訳): SGDノイズの共分散とランドスケープ曲線の超線形関係について
- Authors: Yikuan Zhang, Ning Yang, Yuhai Tu,
- Abstract要約: グラディエントDescent (SGD) は、損失ランドスケープの局所曲率と相関する異方性雑音を導入し、平坦なミニマに対して最適化を行う。
この仮定は、ディープニューラルネットワークでは通常違反される制約条件下でのみ成立することを示す。
データセット、アーキテクチャ、損失関数にわたる実験は、これらの境界を検証し、ディープラーニングにおけるノイズ-曲率関係を統一的に評価する。
- 参考スコア(独自算出の注目度): 1.6773271875801752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) introduces anisotropic noise that is correlated with the local curvature of the loss landscape, thereby biasing optimization toward flat minima. Prior work often assumes an equivalence between the Fisher Information Matrix and the Hessian for negative log-likelihood losses, leading to the claim that the SGD noise covariance $\mathbf{C}$ is proportional to the Hessian $\mathbf{H}$. We show that this assumption holds only under restrictive conditions that are typically violated in deep neural networks. Using the recently discovered Activity--Weight Duality, we find a more general relationship agnostic to the specific loss formulation, showing that $\mathbf{C} \propto \mathbb{E}_p[\mathbf{h}_p^2]$, where $\mathbf{h}_p$ denotes the per-sample Hessian with $\mathbf{H} = \mathbb{E}_p[\mathbf{h}_p]$. As a consequence, $\mathbf{C}$ and $\mathbf{H}$ commute approximately rather than coincide exactly, and their diagonal elements follow an approximate power-law relation $C_{ii} \propto H_{ii}^γ$ with a theoretically bounded exponent $1 \leq γ\leq 2$, determined by per-sample Hessian spectra. Experiments across datasets, architectures, and loss functions validate these bounds, providing a unified characterization of the noise-curvature relationship in deep learning.
- Abstract(参考訳): SGD(Stochastic Gradient Descent)は、損失ランドスケープの局所曲率と相関する異方性雑音を導入し、平坦なミニマに対して最適化を行う。
以前の研究はしばしば、負の対数損失に対してフィッシャー情報行列とヘッセンの等価性を仮定し、SGDノイズ共分散$\mathbf{C}$はヘッセンの$\mathbf{H}$に比例すると主張する。
この仮定は、ディープニューラルネットワークでは通常違反される制約条件下でのみ成立することを示す。
最近発見されたアクティビティ-重双対を用いて、特定の損失の定式化に非依存なより一般的な関係を見つけ、$\mathbf{C} \propto \mathbb{E}_p[\mathbf{h}_p^2]$, ここで、$\mathbf{h}_p$ は $\mathbf{H} = \mathbb{E}_p[\mathbf{h}_p]$ でパーサンプル・ヘッセンを表す。
結果として、$\mathbf{C}$ と $\mathbf{H}$ の可換性は正確に一致せずほぼ一致し、それらの対角的要素は、理論上有界指数 $1 \leq γ\leq 2$ を持つ近似的なパワー-法則関係 $C_{ii} \propto H_{ii}^γ$ に従う。
データセット、アーキテクチャ、損失関数にわたる実験は、これらの境界を検証し、ディープラーニングにおけるノイズ-曲率関係を統一的に評価する。
関連論文リスト
- Local minima of the empirical risk in high dimension: General theorems and convex examples [8.748904058015574]
我々は、データベクトル$mathbfxi$が$d-最小化であるような高次元経験的リスクの一般的なモデルを考える。
我々は推定誤差と予測誤差に基づいてシャープを導出する。
論文 参考訳(メタデータ) (2025-02-04T03:02:24Z) - Semidefinite programming relaxations and debiasing for MAXCUT-based clustering [1.9761774213809036]
2つのガウス分布を$mathbbRp$で混合して引き出す小さなデータサンプルを$n$で分割する問題を考察する。
グラフ上の最大カットを求めるように定式化された整数二次プログラムの半定値プログラミング緩和を用いる。
論文 参考訳(メタデータ) (2024-01-16T03:14:24Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Compressed and distributed least-squares regression: convergence rates with applications to Federated Learning [11.870656106069447]
機械学習の勾配アルゴリズムに対する圧縮の影響について検討する。
いくつかの非バイアス圧縮演算子間の収束率の差を強調した。
我々はその結果を連合学習の事例にまで拡張する。
論文 参考訳(メタデータ) (2023-08-02T18:02:00Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Lattice partition recovery with dyadic CART [79.96359947166592]
我々は、$d$次元格子上の加法ガウス雑音によって破損したピースワイド定値信号について検討する。
この形式のデータは、多くのアプリケーションで自然に発生し、統計処理や信号処理の文献において、信号の検出やテスト、ノイズの除去、推定といったタスクが広く研究されている。
本稿では,未知の信号の一貫性領域によって誘導される格子の分割を推定する,分割回復の問題について考察する。
我々は、DCARTベースの手順が、下位分割を$sigma2 k*の順序で一貫して推定することを証明した。
論文 参考訳(メタデータ) (2021-05-27T23:41:01Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。