論文の概要: On Regularization via Early Stopping for Least Squares Regression
- arxiv url: http://arxiv.org/abs/2406.04425v1
- Date: Thu, 6 Jun 2024 18:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:39:07.928150
- Title: On Regularization via Early Stopping for Least Squares Regression
- Title(参考訳): 最小方形回帰の早期停止による正規化について
- Authors: Rishi Sonthalia, Jackie Lok, Elizaveta Rebrova,
- Abstract要約: 我々は、任意のスペクトルを持つ汎用データや、幅広い学習率スケジュールにおいて、早期停止が有益であることを証明した。
最適停止時間を推定し,推定値の精度を実証的に示す。
- 参考スコア(独自算出の注目度): 4.159762735751163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental problem in machine learning is understanding the effect of early stopping on the parameters obtained and the generalization capabilities of the model. Even for linear models, the effect is not fully understood for arbitrary learning rates and data. In this paper, we analyze the dynamics of discrete full batch gradient descent for linear regression. With minimal assumptions, we characterize the trajectory of the parameters and the expected excess risk. Using this characterization, we show that when training with a learning rate schedule $\eta_k$, and a finite time horizon $T$, the early stopped solution $\beta_T$ is equivalent to the minimum norm solution for a generalized ridge regularized problem. We also prove that early stopping is beneficial for generic data with arbitrary spectrum and for a wide variety of learning rate schedules. We provide an estimate for the optimal stopping time and empirically demonstrate the accuracy of our estimate.
- Abstract(参考訳): 機械学習における基本的な問題は、得られたパラメータとモデルの一般化能力に対する早期停止の影響を理解することである。
線形モデルであっても、任意の学習率やデータに対して、その効果は十分に理解されていない。
本稿では,線形回帰に対する離散完全バッチ勾配勾配のダイナミクスを解析する。
最小限の仮定で、パラメータの軌跡と予測余剰リスクを特徴づける。
この特徴づけを用いて、学習率のスケジュール$\eta_k$と有限時間地平線$T$でトレーニングを行う場合、早期停止解$\beta_T$は一般化リッジ正規化問題の最小ノルム解と等価であることを示す。
また、任意のスペクトルを持つ汎用データや、幅広い学習率スケジュールにおいて、早期停止が有用であることを示す。
最適停止時間を推定し,推定値の精度を実証的に示す。
関連論文リスト
- A Statistical Theory of Regularization-Based Continual Learning [10.899175512941053]
線形回帰タスクの順序に基づく正規化に基づく連続学習の統計的解析を行う。
まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。
理論解析の副産物は、早期停止と一般化された$ell$-regularizationの等価性である。
論文 参考訳(メタデータ) (2024-06-10T12:25:13Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Learning Rate Schedules in the Presence of Distribution Shift [18.310336156637774]
我々は、変化するデータ分布の存在下で、後悔するネットワークが累積的に学習する学習スケジュールを設計する。
我々は, 高次元回帰モデルを用いて, 後悔モデルを増加させる実験を行った。
論文 参考訳(メタデータ) (2023-03-27T23:29:02Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression [41.48538038768993]
本稿では,ドット積カーネルのカーネルリッジ回帰問題に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
論文 参考訳(メタデータ) (2022-05-30T04:21:31Z) - Time varying regression with hidden linear dynamics [74.9914602730208]
線形力学系に従って未知のパラメータが進化することを前提とした時間変化線形回帰モデルを再検討する。
反対に、基礎となる力学が安定である場合、このモデルのパラメータは2つの通常の最小二乗推定と組み合わせることで、データから推定できることが示される。
論文 参考訳(メタデータ) (2021-12-29T23:37:06Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Sparse approximation in learning via neural ODEs [0.0]
私たちはトレーニングで最終的な時間地平線$ T$の影響を研究します。
現実的には、トレーニング問題における短い時間水平は、より浅い残留ニューラルネットワークを考えると解釈できる。
論文 参考訳(メタデータ) (2021-02-26T16:23:02Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in
High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。
本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文 参考訳(メタデータ) (2020-06-16T04:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。