論文の概要: When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias
- arxiv url: http://arxiv.org/abs/2605.06314v2
- Date: Tue, 12 May 2026 05:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.735672
- Title: When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias
- Title(参考訳): $\ell_2$-Boosting Overfit Benignly? High-dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias
- Authors: Ye Su, Jian Li, Yong Liu,
- Abstract要約: 良性オーバーフィッティングが線形レートで失敗することを示します。
この局所化機構は信号の存在下で持続するべきであるが、正確な信号-雑音分解は未解決の問題である。
- 参考スコア(独自算出の注目度): 15.113649527486276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benign overfitting is well-characterized in $\ell_2$ geometries, but its behavior under the $\ell_1$ implicit bias of greedy ensembles remains challenging. The analytical barrier stems from the non-linear coupling of coordinate selection thresholds, which invalidates standard spectral resolvent tools. To isolate this algorithmic bias, we characterize the high-dimensional risk of continuous-time $\ell_2$-Boosting over $p$ features and $n$ samples. By coupling the Convex Gaussian Minimax Theorem with delicate asymptotic expansions of double-sided truncated Gaussian moments, we analytically resolve the non-smooth $\ell_1$ interpolant. Under an isotropic pure-noise model, we prove that benign overfitting fails at the linear rate: greedy selection localizes noise into sparse active sets, and the excess variance decays at a logarithmic rate $Θ(σ^2/\log(p/n))$ for noise variance $σ^2$. We remark that while this localization mechanism should persist in the presence of signals, the exact signal-noise decomposition remains an open problem. For spiked-isotropic designs with $k^*$ head eigenvalues and $r_2 = p - k^*$ tail dimensions, the risk converges to zero when $r_{2} \gg n$, but only at a logarithmic rate $Θ(σ^2/\log(r_2/n))$, which is slower than the linear decay observed in $\ell_2$ geometries. To avoid this slow convergence, we analyze the non-smooth subdifferential dynamics of the boosting flow. This yields a tuning-free early stopping rule that, under a bounded $\ell_1$-path condition, recovers the Lasso basic inequality and attains the minimax-optimal empirical prediction rate for $\ell_1$-bounded signals.
- Abstract(参考訳): Benign overfitting is well-characterized in $\ell_2$ geometries but its behavior under the $\ell_1$ implicit bias of greedy angmbles。
分析障壁は、標準のスペクトル分解剤ツールを無効にする座標選択しきい値の非線形結合に由来する。
このアルゴリズムバイアスを分離するために、連続時間$\ell_2$-Boostingが$p$機能や$n$サンプルよりも高い次元リスクを特徴付ける。
Convex Gaussian Minimax Theorem と両面のトランケートされたガウスモーメントの微妙な漸近展開を結合することにより、非滑らかな $\ell_1$ 補間を解析的に解決する。
フレディ選択はノイズを疎活集合にローカライズし、余剰な分散は対数率$ (σ^2/\log(p/n))$ のノイズ分散$σ^2$で崩壊する。
この局所化機構は信号の存在下で持続するべきであるが、正確な信号-雑音分解は未解決の問題である。
k^*$ヘッド固有値と$r_2 = p - k^*$テール次元を持つスパイクされた等方的設計の場合、リスクは$r_{2} \gg n$のときにゼロに収束するが、対数速度$ σ^2/\log(r_2/n))$でのみ収束し、$\ell_2$測地で観測される線形減衰よりも遅い。
この緩やかな収束を避けるため,昇降流の非滑らかな部分微分力学を解析した。
これにより、有界な$\ell_1$-path条件の下では、Lassoの基本的不等式を回復し、$\ell_1$-bounded信号に対する最小最大最適経験的予測率を得る、チューニング不要の早期停止規則が得られる。
関連論文リスト
- On the Superlinear Relationship between SGD Noise Covariance and Loss Landscape Curvature [1.6773271875801752]
グラディエントDescent (SGD) は、損失ランドスケープの局所曲率と相関する異方性雑音を導入し、平坦なミニマに対して最適化を行う。
この仮定は、ディープニューラルネットワークでは通常違反される制約条件下でのみ成立することを示す。
データセット、アーキテクチャ、損失関数にわたる実験は、これらの境界を検証し、ディープラーニングにおけるノイズ-曲率関係を統一的に評価する。
論文 参考訳(メタデータ) (2026-02-05T12:35:13Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Beyond Uniform Smoothness: A Stopped Analysis of Adaptive SGD [38.221784575853796]
この研究は、勾配を用いて潜在的に一定の滑らかさを持つ非アトー関数の1次定常点を求める問題を考える。
我々は、ノイズに一様境界を仮定することなく$mathcalO(fracmathrmpolylog(T)sigmatT)$収束率を証明できる技術を開発した。
論文 参考訳(メタデータ) (2023-02-13T18:13:36Z) - Optimal Extragradient-Based Bilinearly-Coupled Saddle-Point Optimization [116.89941263390769]
滑らかな凸凹凸結合型サドル点問題, $min_mathbfxmax_mathbfyF(mathbfx) + H(mathbfx,mathbfy)$ を考える。
漸進的勾配指数(AG-EG)降下指数アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-06-17T06:10:20Z) - Exact one- and two-site reduced dynamics in a finite-size quantum Ising
ring after a quench: A semi-analytical approach [4.911435444514558]
クエンチ後の等質量子イジング環の非平衡ダイナミクスについて検討する。
1つのスピンと2つの最も近い隣り合うスピンの長時間還元ダイナミクスについて研究した。
論文 参考訳(メタデータ) (2021-03-23T13:14:50Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。