論文の概要: Linear regression with overparameterized linear neural networks: Tight upper and lower bounds for implicit $\ell^1$-regularization
- arxiv url: http://arxiv.org/abs/2506.01143v1
- Date: Sun, 01 Jun 2025 19:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.949124
- Title: Linear regression with overparameterized linear neural networks: Tight upper and lower bounds for implicit $\ell^1$-regularization
- Title(参考訳): 過パラメータ線形ニューラルネットワークによる線形回帰:暗黙の$\ell^1$-regularizationのための上下境界
- Authors: Hannes Matt, Dominik Stöger,
- Abstract要約: 過パラメータ線形回帰問題に対する深度Dge 2$の対角線形ニューラルネットワークの暗黙正則化について検討した。
D ge 3$ の場合、誤差は$alpha$ で線形的に減少するが、$D=2$ の場合、$alpha1-varrho$ で減少する。
数値実験は、我々の理論的な発見を裏付け、より深いネットワーク、すなわち$D ge 3$がより良い一般化をもたらすことを示唆している。
- 参考スコア(独自算出の注目度): 3.902441198412341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning models are often trained in a setting where the number of parameters exceeds the number of training samples. To understand the implicit bias of gradient descent in such overparameterized models, prior work has studied diagonal linear neural networks in the regression setting. These studies have shown that, when initialized with small weights, gradient descent tends to favor solutions with minimal $\ell^1$-norm - an effect known as implicit regularization. In this paper, we investigate implicit regularization in diagonal linear neural networks of depth $D\ge 2$ for overparameterized linear regression problems. We focus on analyzing the approximation error between the limit point of gradient flow trajectories and the solution to the $\ell^1$-minimization problem. By deriving tight upper and lower bounds on the approximation error, we precisely characterize how the approximation error depends on the scale of initialization $\alpha$. Our results reveal a qualitative difference between depths: for $D \ge 3$, the error decreases linearly with $\alpha$, whereas for $D=2$, it decreases at rate $\alpha^{1-\varrho}$, where the parameter $\varrho \in [0,1)$ can be explicitly characterized. Interestingly, this parameter is closely linked to so-called null space property constants studied in the sparse recovery literature. We demonstrate the asymptotic tightness of our bounds through explicit examples. Numerical experiments corroborate our theoretical findings and suggest that deeper networks, i.e., $D \ge 3$, may lead to better generalization, particularly for realistic initialization scales.
- Abstract(参考訳): 現代の機械学習モデルは、パラメータの数がトレーニングサンプルの数を超えるような環境で訓練されることが多い。
このような過パラメータ化モデルにおける勾配降下の暗黙のバイアスを理解するために、先行研究は回帰設定における対角線状ニューラルネットワークの研究を行った。
これらの研究は、小さな重量で初期化されると、勾配降下は最小の$\ell^1$-norm(暗黙の正則化として知られる)の解を好む傾向にあることを示した。
本稿では,過パラメータ化線形回帰問題に対する深さ$D\ge 2$の対角線形ニューラルネットワークの暗黙正則化について検討する。
勾配流軌跡の極限点と$\ell^1$-minimization問題の解との近似誤差を解析することに集中する。
近似誤差の上と下の境界を厳密に導出することにより、近似誤差が初期化のスケール$\alpha$にどのように依存するかを正確に特徴づける。
しかし、$D=2$の場合は、$\alpha^{1-\varrho}$で減少し、$\varrho \in [0,1)$というパラメータが明示的に特徴づけられる。
興味深いことに、このパラメータはスパースリカバリ文献で研究されたいわゆるヌル空間特性定数と密接に関連している。
我々は、明示的な例を通して、境界の漸近的厳密性を実証する。
数値実験は、我々の理論的な発見を裏付け、より深いネットワーク、すなわち$D \ge 3$は、特に現実的な初期化スケールにおいてより良い一般化をもたらす可能性があることを示唆している。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。