論文の概要: A Statistical Theory of Regularization-Based Continual Learning
- arxiv url: http://arxiv.org/abs/2406.06213v1
- Date: Mon, 10 Jun 2024 12:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:07:44.220086
- Title: A Statistical Theory of Regularization-Based Continual Learning
- Title(参考訳): 正規化に基づく連続学習の統計的理論
- Authors: Xuyang Zhao, Huiyuan Wang, Weiran Huang, Wei Lin,
- Abstract要約: 線形回帰タスクの順序に基づく正規化に基づく連続学習の統計的解析を行う。
まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。
理論解析の副産物は、早期停止と一般化された$ell$-regularizationの等価性である。
- 参考スコア(独自算出の注目度): 10.899175512941053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a statistical analysis of regularization-based continual learning on a sequence of linear regression tasks, with emphasis on how different regularization terms affect the model performance. We first derive the convergence rate for the oracle estimator obtained as if all data were available simultaneously. Next, we consider a family of generalized $\ell_2$-regularization algorithms indexed by matrix-valued hyperparameters, which includes the minimum norm estimator and continual ridge regression as special cases. As more tasks are introduced, we derive an iterative update formula for the estimation error of generalized $\ell_2$-regularized estimators, from which we determine the hyperparameters resulting in the optimal algorithm. Interestingly, the choice of hyperparameters can effectively balance the trade-off between forward and backward knowledge transfer and adjust for data heterogeneity. Moreover, the estimation error of the optimal algorithm is derived explicitly, which is of the same order as that of the oracle estimator. In contrast, our lower bounds for the minimum norm estimator and continual ridge regression show their suboptimality. A byproduct of our theoretical analysis is the equivalence between early stopping and generalized $\ell_2$-regularization in continual learning, which may be of independent interest. Finally, we conduct experiments to complement our theory.
- Abstract(参考訳): 線形回帰タスクの列における正規化に基づく連続学習の統計的解析を行い、正規化条件の違いがモデル性能に与える影響を強調した。
まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。
次に、最小ノルム推定器と連続尾根回帰を含む行列値ハイパーパラメータによってインデックス付けされた一般化された$\ell_2$-regularizationアルゴリズムの族を考える。
より多くのタスクが導入されるにつれて、一般化された$\ell_2$-regularized estimatorの推定誤差に対して反復的な更新式が導出され、そこから最適なアルゴリズムとなるハイパーパラメータが決定される。
興味深いことに、ハイパーパラメータの選択は、前方と後方の知識伝達の間のトレードオフを効果的にバランスさせ、データの不均一性を調整することができる。
さらに、最適アルゴリズムの推定誤差は、オラクル推定器と同じ順序で明示的に導出される。
対照的に、最小ノルム推定器と連続尾根回帰に対する下限は、それらの亜最適性を示す。
我々の理論解析の副産物は、早期停止と連続学習における$\ell_2$-regularizationの一般化の等価性であり、これは独立した関心を持つかもしれない。
最後に、我々の理論を補完する実験を行う。
関連論文リスト
- Adaptive Linear Estimating Equations [5.985204759362746]
本稿では,デバイアス推定器の一般的な構成法を提案する。
適応線形推定方程式の考え方を利用し、正規性の理論的保証を確立する。
我々の推定器の健全な特徴は、マルチアームバンディットの文脈では、我々の推定器は非漸近的な性能を保っていることである。
論文 参考訳(メタデータ) (2023-07-14T12:55:47Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Towards Data-Algorithm Dependent Generalization: a Case Study on
Overparameterized Linear Regression [19.047997113063147]
本稿では,データ依存学習軌跡全体の一般化挙動を考察したデータ-アルゴリズム整合性の概念を提案する。
我々は、データ依存軌道解析を行い、そのような環境での互換性に十分な条件を導出する。
論文 参考訳(メタデータ) (2022-02-12T12:42:36Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Sharp global convergence guarantees for iterative nonconvex
optimization: A Gaussian process perspective [30.524043513721168]
回帰モデルのクラスに対する反復アルゴリズムの収束を解析するための一般的なレシピを開発する。
決定論的には、有限サンプル状態におけるアルゴリズムの収束率と最終的なエラーフロアの両方を正確にキャプチャする。
我々は、更新の交互化に基づく高次アルゴリズムと、下位次数に基づく一次アルゴリズムの両方に対して、鋭い収束率を示す。
論文 参考訳(メタデータ) (2021-09-20T21:48:19Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - The Predictive Normalized Maximum Likelihood for Over-parameterized
Linear Regression with Norm Constraint: Regret and Double Descent [12.929639356256928]
現代の機械学習モデルは、予測規則の複雑さとその一般化能力の間のトレードオフに従わないことを示す。
最近提案された予測正規化最大値 (pNML) は、個々のデータに対するmin-max後悔解である。
我々は,pNML後悔を合成データ上でのポイントワイド学習可能性尺度として使用し,二重発生現象の予測に成功していることを示す。
論文 参考訳(メタデータ) (2021-02-14T15:49:04Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。