論文の概要: Optimal Rates in Continual Linear Regression via Increasing Regularization
- arxiv url: http://arxiv.org/abs/2506.06501v1
- Date: Fri, 06 Jun 2025 19:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.298167
- Title: Optimal Rates in Continual Linear Regression via Increasing Regularization
- Title(参考訳): 規則化の増大による連続線形回帰の最適速度
- Authors: Ran Levinstein, Amit Attia, Matan Schliserman, Uri Sherman, Tomer Koren, Daniel Soudry, Itay Evron,
- Abstract要約: 本研究では,ランダムなタスク順序付けの下での連続線形回帰について検討する。
この設定では、$k$学習後の最悪の損失は、$Omega (1/k)$の低いバウンドを認める。
明示的等方的$ell$正則化と有限ステップ予算による暗黙的正則化という2つのよく使われる正則化スキームを用いる。
- 参考スコア(独自算出の注目度): 36.31850682655034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study realizable continual linear regression under random task orderings, a common setting for developing continual learning theory. In this setup, the worst-case expected loss after $k$ learning iterations admits a lower bound of $\Omega(1/k)$. However, prior work using an unregularized scheme has only established an upper bound of $O(1/k^{1/4})$, leaving a significant gap. Our paper proves that this gap can be narrowed, or even closed, using two frequently used regularization schemes: (1) explicit isotropic $\ell_2$ regularization, and (2) implicit regularization via finite step budgets. We show that these approaches, which are used in practice to mitigate forgetting, reduce to stochastic gradient descent (SGD) on carefully defined surrogate losses. Through this lens, we identify a fixed regularization strength that yields a near-optimal rate of $O(\log k / k)$. Moreover, formalizing and analyzing a generalized variant of SGD for time-varying functions, we derive an increasing regularization strength schedule that provably achieves an optimal rate of $O(1/k)$. This suggests that schedules that increase the regularization coefficient or decrease the number of steps per task are beneficial, at least in the worst case.
- Abstract(参考訳): 本研究では,連続学習理論を開発するための共通条件であるランダムなタスク順序付けの下で,実現可能な連続線形回帰について検討する。
このセットアップでは、$k$の学習イテレーションの後に予想される最悪の損失は、$\Omega(1/k)$の低いバウンダリを認める。
しかし、非正規化スキームを用いた以前の研究は、O(1/k^{1/4})$の上限しか確立されておらず、大きなギャップを残している。
本稿は,(1)明示的等方的$\ell_2$正規化,(2)有限ステップ予算による暗黙的正規化という2つの頻繁な正規化スキームを用いて,このギャップを狭めるか,あるいは閉じることが可能であることを証明した。
これらの手法は, 正確に定義されたサロゲート損失に対する確率勾配降下(SGD)を低減させる。
このレンズを通して、近似速度が$O(\log k / k)$の固定正則化強度を同定する。
さらに、時変関数に対する一般化されたSGDの変種を形式化し解析することにより、最適なO(1/k)$を確実に達成する正則化強度スケジュールを導出する。
これは、少なくとも最悪の場合において、正規化係数を増加させたり、タスク毎のステップ数を減らしたりするスケジュールが有益であることを示唆している。
関連論文リスト
- Rapid Overfitting of Multi-Pass Stochastic Gradient Descent in Stochastic Convex Optimization [34.451177321785146]
基本凸最適化(SCO)モデルにおけるマルチパス勾配勾配勾配(SGD)のアウトオブサンプル性能について検討した。
SCOの非平滑なケースでは、SGDのごく一部のエポックが既にそのアウト・オブ・サンプルを著しく損なっており、オーバーフィッティングにつながることが示されている。
論文 参考訳(メタデータ) (2025-05-13T07:32:48Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - SGD Generalizes Better Than GD (And Regularization Doesn't Help) [39.588906680621825]
我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
論文 参考訳(メタデータ) (2021-02-01T19:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。