論文の概要: Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias
- arxiv url: http://arxiv.org/abs/2509.21181v2
- Date: Wed, 08 Oct 2025 01:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.152807
- Title: Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias
- Title(参考訳): オーバーパラメータ化線形回帰と対角線ネットワークのためのデータによる$\ell_p$バイアス下でのクローズドフォーム$\ell_r$ノルムスケーリング
- Authors: Shuofeng Zhang, Ard Louis,
- Abstract要約: パラメータノルムの族をスケールするために、統一的で高確率な特徴を与える。
次に、降下によって訓練された線形ネットワークについて研究する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For overparameterized linear regression with isotropic Gaussian design and minimum-$\ell_p$ interpolator $p\in(1,2]$, we give a unified, high-probability characterization for the scaling of the family of parameter norms $ \\{ \lVert \widehat{w_p} \rVert_r \\}_{r \in [1,p]} $ with sample size. We solve this basic, but unresolved question through a simple dual-ray analysis, which reveals a competition between a signal *spike* and a *bulk* of null coordinates in $X^\top Y$, yielding closed-form predictions for (i) a data-dependent transition $n_\star$ (the "elbow"), and (ii) a universal threshold $r_\star=2(p-1)$ that separates $\lVert \widehat{w_p} \rVert_r$'s which plateau from those that continue to grow with an explicit exponent. This unified solution resolves the scaling of *all* $\ell_r$ norms within the family $r\in [1,p]$ under $\ell_p$-biased interpolation, and explains in one picture which norms saturate and which increase as $n$ grows. We then study diagonal linear networks (DLNs) trained by gradient descent. By calibrating the initialization scale $\alpha$ to an effective $p_{\mathrm{eff}}(\alpha)$ via the DLN separable potential, we show empirically that DLNs inherit the same elbow/threshold laws, providing a predictive bridge between explicit and implicit bias. Given that many generalization proxies depend on $\lVert \widehat {w_p} \rVert_r$, our results suggest that their predictive power will depend sensitively on which $l_r$ norm is used.
- Abstract(参考訳): 等方的ガウス設計と最小値$$\ell_p$interpolator $p\in(1,2]$に対して、パラメータノルムの族である $ \\{ \lVert \widehat{w_p} \rVert_r \\}_{r \in [1,p]} $ のスケーリングに統一的で高確率な特徴を与える。
これは、信号 *spike* と null 座標の *bulk* との競合を$X^\top Y$ で示し、閉形式予測をもたらす。
(i)データ依存トランジション$n_\star$("elbow")、
(ii) 普遍しきい値 $r_\star=2(p-1)$ は、明示的な指数で成長し続けるものから高原となる$\lVert \widehat{w_p} \rVert_r$'sを分離する。
この統一された解は、$r\in [1,p]$ under $\ell_p$-biased補間における*all* $\ell_r$ノルムのスケーリングを解決し、どのノルムが飽和し、n$が増加するかを説明する。
次に、勾配降下により訓練された対角線ネットワーク(DLN)について検討する。
DLN分離ポテンシャルを介して、初期化尺度 $\alpha$ を有効 $p_{\mathrm{eff}}(\alpha)$ に校正することにより、DLNが同じエルボー/スレッショルド法則を継承し、明示的偏見と暗黙的偏見の間に予測的な橋渡しを与えることを示す。
多くの一般化プロキシが$\lVert \widehat {w_p} \rVert_r$に依存していることを考えると、これらの予測力は、どの$l_r$ノルムが使われるかに敏感に依存すると考えられる。
関連論文リスト
- Nearly Optimal Differentially Private ReLU Regression [18.599299269974498]
微分プライバシ(DP)モデルにおいて、最も基本的な非学習問題の1つ、ReLU回帰について検討する。
我々は,1パスのミニバッチ一般化モデルパーセプトロンアルゴリズムを提案し,解析することで,$epsilon$と公開データの要求を緩和する。
論文 参考訳(メタデータ) (2025-03-08T02:09:47Z) - Conditional regression for the Nonlinear Single-Variable Model [4.565636963872865]
次元の統計的および計算的呪いなしで、$mathbbRd$に$F$を回帰するには、特別な統計モデルが必要である。
ここで、モデル $F(X):=f(Pi_gamma X)$ ここで $Pi_gamma:mathbbRdto[0,textrmlen_gamma]$ は正則曲線のパラメータへの最も近い点射影である。
論文 参考訳(メタデータ) (2024-11-14T18:53:51Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。