論文の概要: A Bootstrap Perspective on Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2512.07676v1
- Date: Mon, 08 Dec 2025 16:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.959916
- Title: A Bootstrap Perspective on Stochastic Gradient Descent
- Title(参考訳): 確率勾配の老化に関するブートストラップの展望
- Authors: Hongjian Lan, Yucong Liu, Florian Schäfer,
- Abstract要約: Emphstochastic gradient descent(SGD)で訓練された機械学習モデルは、決定論的勾配降下(GD)で訓練されたモデルよりも一般化できる
- 参考スコア(独自算出の注目度): 3.6449336503217786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models trained with \emph{stochastic} gradient descent (SGD) can generalize better than those trained with deterministic gradient descent (GD). In this work, we study SGD's impact on generalization through the lens of the statistical bootstrap: SGD uses gradient variability under batch sampling as a proxy for solution variability under the randomness of the data collection process. We use empirical results and theoretical analysis to substantiate this claim. In idealized experiments on empirical risk minimization, we show that SGD is drawn to parameter choices that are robust under resampling and thus avoids spurious solutions even if they lie in wider and deeper minima of the training loss. We prove rigorously that by implicitly regularizing the trace of the gradient covariance matrix, SGD controls the algorithmic variability. This regularization leads to solutions that are less sensitive to sampling noise, thereby improving generalization. Numerical experiments on neural network training show that explicitly incorporating the estimate of the algorithmic variability as a regularizer improves test performance. This fact supports our claim that bootstrap estimation underpins SGD's generalization advantages.
- Abstract(参考訳): emph{stochastic} 勾配降下 (SGD) で訓練された機械学習モデルは、決定論的勾配降下 (GD) で訓練されたモデルよりも一般化できる。
本研究では,統計的ブートストラップのレンズによる一般化に対するSGDの影響について検討する: SGDは,データ収集プロセスのランダム性の下での解の変動のプロキシとして,バッチサンプリング下での勾配変数を用いる。
我々はこの主張を裏付けるために経験的結果と理論的分析を用いる。
経験的リスク最小化に関する理想的な実験では、SGDは再サンプリング時に頑健なパラメータ選択に導かれ、トレーニング損失のより広い、より深い最小値にある場合でも、急激な解を避けることが示されている。
勾配共分散行列のトレースを暗黙的に正規化することにより、SGDはアルゴリズムの可変性を制御できることを厳密に証明する。
この正規化は、サンプリングノイズに敏感でない解をもたらし、一般化を改善する。
ニューラルネットワークのトレーニングに関する数値実験では、アルゴリズムの可変性を正則化器として明示的に取り入れることで、テスト性能が向上することが示された。
この事実は、ブートストラップ推定がSGDの一般化の利点を支えているという我々の主張を支持している。
関連論文リスト
- A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution [5.5165579223151795]
ランダムな学習率を持つ勾配降下(SGD)の変種を考察する。
ポアソンSGDによって更新されたパラメータの分布は、弱い仮定の下で定常分布に収束することを示す。
論文 参考訳(メタデータ) (2024-06-23T06:52:33Z) - Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation [3.328448170090945]
適応的なステップを持つグラディエントDescent(SGD)は、ディープニューラルネットワークと生成モデルのトレーニングに広く使用されている。
本稿では,勾配関数に対するバイアスの影響を包括的に分析する。
論文 参考訳(メタデータ) (2024-02-05T10:17:36Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent:
Convergence Guarantees and Empirical Benefits [21.353189917487512]
勾配降下(SGD)とその変種は、機械学習問題のアルゴリズムとして確立されている。
我々は、最小バッチSGDが全ログ類似損失関数の臨界点に収束することを証明して一歩前進する。
我々の理論的な保証は、核関数が指数的あるいは固有デカイを示すことを前提としている。
論文 参考訳(メタデータ) (2021-11-19T22:28:47Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。