論文の概要: Risk and cross validation in ridge regression with correlated samples
- arxiv url: http://arxiv.org/abs/2408.04607v2
- Date: Sun, 11 Aug 2024 19:50:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 19:54:11.874457
- Title: Risk and cross validation in ridge regression with correlated samples
- Title(参考訳): 相関試料を用いた尾根回帰のリスクと交差検証
- Authors: Alexander Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan,
- Abstract要約: 我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
- 参考スコア(独自算出の注目度): 72.59731158970894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen substantial advances in our understanding of high-dimensional ridge regression, but existing theories assume that training examples are independent. By leveraging recent techniques from random matrix theory and free probability, we provide sharp asymptotics for the in- and out-of-sample risks of ridge regression when the data points have arbitrary correlations. We demonstrate that in this setting, the generalized cross validation estimator (GCV) fails to correctly predict the out-of-sample risk. However, in the case where the noise residuals have the same correlations as the data points, one can modify the GCV to yield an efficiently-computable unbiased estimator that concentrates in the high-dimensional limit, which we dub CorrGCV. We further extend our asymptotic analysis to the case where the test point has nontrivial correlations with the training set, a setting often encountered in time series forecasting. Assuming knowledge of the correlation structure of the time series, this again yields an extension of the GCV estimator, and sharply characterizes the degree to which such test points yield an overly optimistic prediction of long-time risk. We validate the predictions of our theory across a variety of high dimensional data.
- Abstract(参考訳): 近年、高次元尾根回帰の理解が著しく進歩しているが、既存の理論では訓練例は独立していると考えられている。
確率行列理論と自由確率の最近の手法を活用することで、データポイントが任意の相関を持つ場合のリッジ回帰の内外リスクに対して鋭い漸近を与える。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
しかし、ノイズ残差がデータポイントと同じ相関を持つ場合、GCVを変更して高次元極限に集中する効率よく計算可能な非バイアス推定器が得られる。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで漸近解析を拡張します。
時系列の相関構造の知識を仮定すると、これは再びGCV推定器の拡張をもたらし、そのようなテストポイントが長期的リスクを過度に楽観的に予測する程度を鋭く特徴づける。
我々は多種多様な高次元データにまたがって理論の予測を検証した。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Failures and Successes of Cross-Validation for Early-Stopped Gradient
Descent [8.0225129190882]
我々は、早期降下勾配(GD)に適用された一般クロスバリデーション(GCV)とアウトアウトクロスバリデーション(LOOCV)の統計的性質を解析する。
等方性を有する線形モデルであっても, GCV は早期停止型GD の予測リスクの予測器として不整合であることが証明された。
我々の理論はデータ分布に関する軽微な仮定しか必要とせず、根底にある回帰関数を線形とする必要はない。
論文 参考訳(メタデータ) (2024-02-26T18:07:27Z) - Corrected generalized cross-validation for finite ensembles of penalized estimators [5.165142221427927]
Generalized Cross-Vidation (GCV) は、正方形外乱予測リスクを推定するための広く使われている手法である。
GCV は 1 以上の大きさの有限アンサンブルに対して不整合であることを示す。
論文 参考訳(メタデータ) (2023-10-02T17:38:54Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Prediction Risk and Estimation Risk of the Ridgeless Least Squares Estimator under General Assumptions on Regression Errors [10.857775300638831]
より一般的な回帰誤差仮定の下で予測リスクと推定リスクについて検討する。
その結果,パラメータ化の利点は時系列,パネル,グループ化データにまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T10:04:20Z) - Benign-Overfitting in Conditional Average Treatment Effect Prediction
with Linear Regression [14.493176427999028]
線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。
一方,IPW-learnerは確率スコアが分かっていればリスクをゼロに収束させるが,T-learnerはランダムな割り当て以外の一貫性を達成できないことを示す。
論文 参考訳(メタデータ) (2022-02-10T18:51:52Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。