論文の概要: Optimal L2 Regularization in High-dimensional Continual Linear Regression
- arxiv url: http://arxiv.org/abs/2601.13844v1
- Date: Tue, 20 Jan 2026 10:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.274743
- Title: Optimal L2 Regularization in High-dimensional Continual Linear Regression
- Title(参考訳): 高次元連続線形回帰における最適L2正規化
- Authors: Gilad Karpel, Edward Moroshko, Ran Levinstein, Ron Meir, Daniel Soudry, Itay Evron,
- Abstract要約: 等方性正規化は,教師設定と教師設定の両方でラベルノイズを緩和することを示す。
最適な固定正則化強度は、タスク数$T$、具体的には$T/ln T$とほぼ線形にスケールすることを示す。
- 参考スコア(独自算出の注目度): 23.755622734693134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study generalization in an overparameterized continual linear regression setting, where a model is trained with L2 (isotropic) regularization across a sequence of tasks. We derive a closed-form expression for the expected generalization loss in the high-dimensional regime that holds for arbitrary linear teachers. We demonstrate that isotropic regularization mitigates label noise under both single-teacher and multiple i.i.d. teacher settings, whereas prior work accommodating multiple teachers either did not employ regularization or used memory-demanding methods. Furthermore, we prove that the optimal fixed regularization strength scales nearly linearly with the number of tasks $T$, specifically as $T/\ln T$. To our knowledge, this is the first such result in theoretical continual learning. Finally, we validate our theoretical findings through experiments on linear regression and neural networks, illustrating how this scaling law affects generalization and offering a practical recipe for the design of continual learning systems.
- Abstract(参考訳): モデルがL2(等方性)正規化を用いて一連のタスクにわたって訓練される過パラメータ化連続線形回帰設定における一般化について検討する。
我々は、任意の線形教師を収容する高次元体制において、期待される一般化損失に対する閉形式表現を導出する。
また,同型正規化は単一教師と複数教師の双方でラベルノイズを緩和するのに対し,複数教師を収容する以前の作業では正規化を使わなかったり,メモリ要求方式を使わなかったりした。
さらに、最適固定正則化強度は、タスク数$T$、具体的には$T/\ln T$とほぼ線形にスケールすることを示す。
私たちの知る限りでは、これは理論的な連続学習における最初の結果である。
最後に、線形回帰とニューラルネットワークの実験を通じて、このスケーリング法則が一般化にどのように影響するかを説明し、連続的な学習システムの設計のための実践的なレシピを提供する。
関連論文リスト
- A Statistical Theory of Regularization-Based Continual Learning [10.899175512941053]
線形回帰タスクの順序に基づく正規化に基づく連続学習の統計的解析を行う。
まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。
理論解析の副産物は、早期停止と一般化された$ell$-regularizationの等価性である。
論文 参考訳(メタデータ) (2024-06-10T12:25:13Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Understanding Incremental Learning of Gradient Descent: A Fine-grained
Analysis of Matrix Sensing [74.2952487120137]
GD(Gradient Descent)は、機械学習モデルにおいて、良い一般化に対する暗黙のバイアスをもたらすと考えられている。
本稿では,行列センシング問題に対するGDのダイナミクスを詳細に解析する。
論文 参考訳(メタデータ) (2023-01-27T02:30:51Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z) - Sparsest Univariate Learning Models Under Lipschitz Constraint [31.28451181040038]
一次元回帰問題に対する連続領域定式化を提案する。
リプシッツ定数をユーザ定義上界を用いて明示的に制御する。
いずれの問題も、連続的かつ断片的線形なグローバル最小化を許容していることが示される。
論文 参考訳(メタデータ) (2021-12-27T07:03:43Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - A Random Matrix Theory Approach to Damping in Deep Learning [0.7614628596146599]
深層学習における適応的勾配法と非適応的勾配法との違いは推定ノイズの増加に起因すると推測する。
線形縮退推定にインスパイアされた2次オプティマイザのためのランダム行列理論に基づくダンピング学習器を開発した。
論文 参考訳(メタデータ) (2020-11-15T18:19:42Z) - Optimal Regularization Can Mitigate Double Descent [29.414119906479954]
最適正則化を用いて二重発振現象を回避できるかどうかを検討した。
我々は、最適に調整された$ell$正規化が、ニューラルネットワークを含むより一般的なモデルの2重降下を可能にすることを実証的に実証した。
論文 参考訳(メタデータ) (2020-03-04T05:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。