論文の概要: Benefits of Early Stopping in Gradient Descent for Overparameterized Logistic Regression
- arxiv url: http://arxiv.org/abs/2502.13283v1
- Date: Tue, 18 Feb 2025 21:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:25.778170
- Title: Benefits of Early Stopping in Gradient Descent for Overparameterized Logistic Regression
- Title(参考訳): 過パラメータなロジスティック回帰に対するグラディエントダイスの初期停止の効果
- Authors: Jingfeng Wu, Peter Bartlett, Matus Telgarsky, Bin Yu,
- Abstract要約: ロジスティック回帰では、勾配降下(GD)は最大$ell$-margin解に収束しながらノルムで分岐する。
本研究は,高次元ロジスティック回帰における早期停止による追加正則化効果について検討する。
- 参考スコア(独自算出の注目度): 28.3662709740417
- License:
- Abstract: In overparameterized logistic regression, gradient descent (GD) iterates diverge in norm while converging in direction to the maximum $\ell_2$-margin solution -- a phenomenon known as the implicit bias of GD. This work investigates additional regularization effects induced by early stopping in well-specified high-dimensional logistic regression. We first demonstrate that the excess logistic risk vanishes for early-stopped GD but diverges to infinity for GD iterates at convergence. This suggests that early-stopped GD is well-calibrated, whereas asymptotic GD is statistically inconsistent. Second, we show that to attain a small excess zero-one risk, polynomially many samples are sufficient for early-stopped GD, while exponentially many samples are necessary for any interpolating estimator, including asymptotic GD. This separation underscores the statistical benefits of early stopping in the overparameterized regime. Finally, we establish nonasymptotic bounds on the norm and angular differences between early-stopped GD and $\ell_2$-regularized empirical risk minimizer, thereby connecting the implicit regularization of GD with explicit $\ell_2$-regularization.
- Abstract(参考訳): 過度にパラメータ化されたロジスティック回帰では、勾配降下(GD)は、GDの暗黙バイアスとして知られる最大$\ell_2$-margin解に収束しながら、ノルムの拡散を繰り返す。
本研究は,高次元ロジスティック回帰における早期停止による追加正則化効果について検討する。
まず、初期停止GDの余剰ロジスティックリスクが消滅するが、収束時にGDが反復する無限大に分岐することを示した。
これは、初期のGDはよく校正されているが、漸近性GDは統計的に矛盾していることを示している。
第2に、零点リスクを小さく抑えるためには、多項式的に多くのサンプルが早期停止GDに十分であり、指数的に多くのサンプルが漸近GDを含む補間推定器に必要であることを示す。
この分離は、過度にパラメータ化された体制における早期停止の統計的利点を裏付けるものである。
最後に、初期停止GD と $\ell_2$-regularized empirical risk minimalr のノルムと角の差による漸近的境界を確立することにより、GD の暗黙正則化を明示的な $\ell_2$-regularization と結びつける。
関連論文リスト
- Asymptotics of Stochastic Gradient Descent with Dropout Regularization in Linear Models [8.555650549124818]
本稿では,線形回帰における勾配勾配勾配(SGD)のオンライン推論とドロップアウト正規化を反復する理論を提案する。
十分に大きなサンプルの場合,ASGDの投棄による信頼区間は,名目カバレッジの確率をほぼ達成している。
論文 参考訳(メタデータ) (2024-09-11T17:28:38Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Convergence Rates of Stochastic Gradient Descent under Infinite Noise
Variance [14.06947898164194]
ヘビーテールは様々なシナリオで勾配降下 (sgd) で現れる。
SGDの収束保証は、潜在的に無限のばらつきを持つ状態依存性および重尾ノイズ下で提供します。
その結果,SGDは無限に分散した重尾雑音下であっても,地球最適値に収束できることが示された。
論文 参考訳(メタデータ) (2021-02-20T13:45:11Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。