論文の概要: Memorize to Generalize: on the Necessity of Interpolation in High
Dimensional Linear Regression
- arxiv url: http://arxiv.org/abs/2202.09889v1
- Date: Sun, 20 Feb 2022 18:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 08:51:46.371257
- Title: Memorize to Generalize: on the Necessity of Interpolation in High
Dimensional Linear Regression
- Title(参考訳): 一般化のための記憶:高次元線形回帰における補間の必要性について
- Authors: Chen Cheng, John Duchi, Rohith Kuditipudi
- Abstract要約: 機械学習問題における最適な予測リスクを達成するには、トレーニングデータを補間する必要がある。
この設定では、トレーニングエラーで予測(テスト)エラーが必ずスケールするかを特徴付ける。
最適な性能には、問題の固有のノイズフロアよりもかなり高い精度でトレーニングデータを取り付ける必要がある。
- 参考スコア(独自算出の注目度): 6.594338220264161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine the necessity of interpolation in overparameterized models, that
is, when achieving optimal predictive risk in machine learning problems
requires (nearly) interpolating the training data. In particular, we consider
simple overparameterized linear regression $y = X \theta + w$ with random
design $X \in \mathbb{R}^{n \times d}$ under the proportional asymptotics $d/n
\to \gamma \in (1, \infty)$. We precisely characterize how prediction (test)
error necessarily scales with training error in this setting. An implication of
this characterization is that as the label noise variance $\sigma^2 \to 0$, any
estimator that incurs at least $\mathsf{c}\sigma^4$ training error for some
constant $\mathsf{c}$ is necessarily suboptimal and will suffer growth in
excess prediction error at least linear in the training error. Thus, optimal
performance requires fitting training data to substantially higher accuracy
than the inherent noise floor of the problem.
- Abstract(参考訳): 機械学習問題における最適予測リスクを達成するには、トレーニングデータを(ほぼ)補間する必要がある。
特に、単純な過パラメータ化線型回帰 $y = X \theta + w$ とランダム設計 $X \in \mathbb{R}^{n \times d}$ を比例漸近s $d/n \to \gamma \in (1, \infty)$ で考える。
この設定では、トレーニングエラーで予測(テスト)エラーが必ずスケールするかを正確に特徴づける。
この特徴付けの含意として、ラベルノイズ分散 $\sigma^2 \to 0$ として、ある定数 $\mathsf{c}\sigma^4$ に対して少なくとも$\mathsf{c}\sigma^4$ のトレーニングエラーは必ずしも最適ではなく、少なくともトレーニングエラーにおいて過剰な予測誤差が増大する。
したがって、最適性能には、問題の固有のノイズフロアよりもかなり高い精度でトレーニングデータを取り付ける必要がある。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression [41.48538038768993]
本稿では,ドット積カーネルのカーネルリッジ回帰問題に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
論文 参考訳(メタデータ) (2022-05-30T04:21:31Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Max-Linear Regression by Convex Programming [5.366354612549172]
我々は、最大線形回帰問題の推定器として、アンカーレグレッション(AR)によって与えられるスケーラブルな凸プログラムを定式化し、解析する。
以上の結果から, 対数係数まで, 正確な回復スケールについて, 十分な数のノイズのない観測結果が得られた。
論文 参考訳(メタデータ) (2021-03-12T00:55:54Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。