論文の概要: Near-Interpolators: Rapid Norm Growth and the Trade-Off between
Interpolation and Generalization
- arxiv url: http://arxiv.org/abs/2403.07264v1
- Date: Tue, 12 Mar 2024 02:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:02:20.688756
- Title: Near-Interpolators: Rapid Norm Growth and the Trade-Off between
Interpolation and Generalization
- Title(参考訳): 近補間:急速な規範成長と補間と一般化のトレードオフ
- Authors: Yutong Wang, Rishi Sonthalia, Wei Hu
- Abstract要約: ほぼ補間された線形回帰器の一般化能力について検討する。
for $tau$ fixed, $boldsymbolbeta$ has squared $ell$-norm $bbE[|boldsymbolbeta|_22].
我々は、同様の現象が、ほぼ補間された浅いニューラルネットワークに現れることを実証的に証明した。
- 参考スコア(独自算出の注目度): 28.02367842438021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the generalization capability of nearly-interpolating linear
regressors: $\boldsymbol{\beta}$'s whose training error $\tau$ is positive but
small, i.e., below the noise floor. Under a random matrix theoretic assumption
on the data distribution and an eigendecay assumption on the data covariance
matrix $\boldsymbol{\Sigma}$, we demonstrate that any near-interpolator
exhibits rapid norm growth: for $\tau$ fixed, $\boldsymbol{\beta}$ has squared
$\ell_2$-norm $\mathbb{E}[\|{\boldsymbol{\beta}}\|_{2}^{2}] =
\Omega(n^{\alpha})$ where $n$ is the number of samples and $\alpha >1$ is the
exponent of the eigendecay, i.e., $\lambda_i(\boldsymbol{\Sigma}) \sim
i^{-\alpha}$. This implies that existing data-independent norm-based bounds are
necessarily loose. On the other hand, in the same regime we precisely
characterize the asymptotic trade-off between interpolation and generalization.
Our characterization reveals that larger norm scaling exponents $\alpha$
correspond to worse trade-offs between interpolation and generalization. We
verify empirically that a similar phenomenon holds for nearly-interpolating
shallow neural networks.
- Abstract(参考訳): ほぼ補間された線形回帰器の一般化能力について検討する: $\boldsymbol{\beta}$'s that training error $\tau$ is positive but small, i., under the noise floor。
データ分布に関するランダム行列の理論的な仮定とデータ共分散行列 $\boldsymbol{\sigma}$ 上の固有デカイ仮定の下で、任意の近似補間器は急速に成長することを示した: $\tau$ に対して、$\boldsymbol{\beta}$ は$\ell_2$-norm$\mathbb{e}[\|{\boldsymbol{\beta}}\|_{2}^{2}] = \omega(n^{\alpha})$ ここで$n$ はサンプルの数、$\alpha >1$ はeigendecayの指数、すなわち $\lambda_i(\boldsymbol{\sigma}) \sim i^{-\alpha}$である。
これは、既存のデータ非依存のノルムベース境界が必ずしも緩いことを意味する。
一方、同じ体制では、補間と一般化の間の漸近的トレードオフを正確に特徴づける。
我々の特徴は、より大きいノルムスケーリング指数$\alpha$は補間と一般化の間のより悪いトレードオフに対応することを示している。
同様の現象がほぼ補間された浅層ニューラルネットワークにも有効であることを実証的に検証する。
関連論文リスト
- Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Universality of max-margin classifiers [10.797131009370219]
非ガウス的特徴に対する誤分類誤差の高次元普遍性と大域化写像の役割について検討する。
特に、オーバーパラメトリゼーションしきい値と一般化誤差はより単純なモデルで計算できる。
論文 参考訳(メタデータ) (2023-09-29T22:45:56Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Universality of empirical risk minimization [12.764655736673749]
例えば、$boldsymbol x_i inmathbbRp$ が特徴ベクトルで $y in mathbbR$ がラベルであるような i.d. サンプルからの教師付き学習を考える。
我々は$mathsfkによってパラメータ化される関数のクラスに対する経験的リスク普遍性について研究する。
論文 参考訳(メタデータ) (2022-02-17T18:53:45Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - On the robustness of the minimum $\ell_2$ interpolator [2.918940961856197]
一般高次元線形回帰フレームワークにおいて最小$ell$-norm$hatbeta$で補間を解析する。
高い確率で、この推定器の予測損失は、上から$(|beta*|2r_cn(Sigma)vee |xi|2)/n$で有界であることを証明する。
論文 参考訳(メタデータ) (2020-03-12T15:12:28Z) - The generalization error of max-margin linear classifiers: Benign
overfitting and high dimensional asymptotics in the overparametrized regime [11.252856459394854]
現代の機械学習分類器は、トレーニングセットに消滅する分類誤差を示すことが多い。
これらの現象に触発され、線形分離可能なデータに対する高次元の最大マージン分類を再検討する。
論文 参考訳(メタデータ) (2019-11-05T00:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。