論文の概要: Generalization for Least Squares Regression With Simple Spiked Covariances
- arxiv url: http://arxiv.org/abs/2410.13991v1
- Date: Thu, 17 Oct 2024 19:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:19.734864
- Title: Generalization for Least Squares Regression With Simple Spiked Covariances
- Title(参考訳): 単純なスパイク共分散による最小二乗回帰の一般化
- Authors: Jiping Li, Rishi Sonthalia,
- Abstract要約: 勾配降下によって訓練された2層ニューラルネットワークの一般化特性はいまだよく分かっていない。
最近の研究は、隠れた層における特徴行列のスペクトルを記述することで進展した。
しかし、スパイク共分散を持つ線形モデルの一般化誤差は以前には決定されていない。
- 参考スコア(独自算出の注目度): 3.9134031118910264
- License:
- Abstract: Random matrix theory has proven to be a valuable tool in analyzing the generalization of linear models. However, the generalization properties of even two-layer neural networks trained by gradient descent remain poorly understood. To understand the generalization performance of such networks, it is crucial to characterize the spectrum of the feature matrix at the hidden layer. Recent work has made progress in this direction by describing the spectrum after a single gradient step, revealing a spiked covariance structure. Yet, the generalization error for linear models with spiked covariances has not been previously determined. This paper addresses this gap by examining two simple models exhibiting spiked covariances. We derive their generalization error in the asymptotic proportional regime. Our analysis demonstrates that the eigenvector and eigenvalue corresponding to the spike significantly influence the generalization error.
- Abstract(参考訳): ランダム行列理論は線形モデルの一般化を分析する上で貴重なツールであることが証明されている。
しかし、勾配降下によって訓練された2層ニューラルネットワークの一般化特性はいまだよく分かっていない。
このようなネットワークの一般化性能を理解するためには,隠れ層における特徴行列のスペクトルを特徴付けることが重要である。
最近の研究は、単一の勾配ステップの後にスペクトルを記述し、スパイクされた共分散構造を明らかにすることで、この方向に進展した。
しかし、スパイク共分散を持つ線形モデルの一般化誤差は以前には決定されていない。
本稿では、スパイクされた共分散を示す2つの単純なモデルを調べることで、このギャップに対処する。
漸近的比例体制における一般化誤差を導出する。
解析の結果,スパイクに対応する固有ベクトルと固有値が一般化誤差に大きく影響していることが判明した。
関連論文リスト
- High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文 参考訳(メタデータ) (2024-06-05T12:03:27Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Gradient flow in the gaussian covariate model: exact solution of
learning curves and multiple descent structures [14.578025146641806]
一般化曲線の全時間進化を完全かつ統一的に解析する。
この理論予測は,現実的なデータセットよりも勾配降下によって得られる学習曲線と適切に一致していることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:39:18Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Lower Bounds on the Generalization Error of Nonlinear Learning Models [2.1030878979833467]
本稿では,多層ニューラルネットワークから導出したモデルの一般化誤差に対する下限について,学習データ中のサンプル数と層の大きさが一致した状況下で検討する。
偏りのない推定器は,このような非線形ネットワークでは受け入れられない性能を示す。
線形回帰や2層ネットワークの場合、一般偏差推定器の明示的な一般化の下界を導出する。
論文 参考訳(メタデータ) (2021-03-26T20:37:54Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Asymptotics of Ridge Regression in Convolutional Models [26.910291664252973]
特定の高次元状態にある尾根推定器の推定誤差の正確な式を導出する。
畳み込みモデルに対する実験では, 二重降下現象を示し, 理論結果が実験と一致することを示した。
論文 参考訳(メタデータ) (2021-03-08T05:56:43Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition [34.235007566913396]
ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
論文 参考訳(メタデータ) (2020-11-04T21:04:02Z) - The Slow Deterioration of the Generalization Error of the Random Feature
Model [12.865834066050427]
理論的、実験的に、作業中に動的自己補正機構があることが示される。
これにより、トレーニングプロセスを止めて、優れた一般化特性を持つソリューションを得るのに十分な時間が得られる。
論文 参考訳(メタデータ) (2020-08-13T00:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。