論文の概要: High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile
- arxiv url: http://arxiv.org/abs/2403.20200v3
- Date: Thu, 23 Jan 2025 13:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:55:56.744972
- Title: High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile
- Title(参考訳): 分散プロファイルを持つ不特定分散データに対するリッジ回帰の高次元解析
- Authors: Jérémie Bigot, Issa-Mbenard Dabo, Camille Male,
- Abstract要約: 線形回帰に対する尾根推定器の予測リスクを分散プロファイルを用いて検討した。
ある種の分散プロファイルについては、よく知られた二重降下現象の出現に注目した。
また、独立分散データと同一分散データの標準設定で存在する類似点と相違点についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: High-dimensional linear regression has been thoroughly studied in the context of independent and identically distributed data. We propose to investigate high-dimensional regression models for independent but non-identically distributed data. To this end, we suppose that the set of observed predictors (or features) is a random matrix with a variance profile and with dimensions growing at a proportional rate. Assuming a random effect model, we study the predictive risk of the ridge estimator for linear regression with such a variance profile. In this setting, we provide deterministic equivalents of this risk and of the degree of freedom of the ridge estimator. For certain class of variance profile, our work highlights the emergence of the well-known double descent phenomenon in high-dimensional regression for the minimum norm least-squares estimator when the ridge regularization parameter goes to zero. We also exhibit variance profiles for which the shape of this predictive risk differs from double descent. The proofs of our results are based on tools from random matrix theory in the presence of a variance profile that have not been considered so far to study regression models. Numerical experiments are provided to show the accuracy of the aforementioned deterministic equivalents on the computation of the predictive risk of ridge regression. We also investigate the similarities and differences that exist with the standard setting of independent and identically distributed data.
- Abstract(参考訳): 高次元線形回帰は、独立分布および同一分布データの文脈で徹底的に研究されている。
本稿では,独立な非独立分散データに対する高次元回帰モデルについて検討する。
この目的のために、観測された予測器(または特徴)の集合は、分散プロファイルを持ち、次元が比例的に増加するランダム行列であると仮定する。
ランダム・エフェクト・モデルと仮定し、そのような分散プロファイルを持つ線形回帰に対するリッジ推定器の予測リスクについて検討する。
この設定では、このリスクとリッジ推定子の自由度の決定論的等価性を提供する。
ある種の分散プロファイルでは、リッジ正規化パラメータがゼロとなるとき、最小ノルム最小二乗推定器の高次元回帰におけるよく知られた二重降下現象の出現が強調される。
また、この予測リスクの形状が二重降下と異なる分散プロファイルを示す。
この結果の証明は、回帰モデルを研究するためにこれまで検討されていない分散プロファイルの存在下でのランダム行列理論のツールに基づいている。
数値実験により、前述の決定論的等価性の精度を、リッジ回帰の予測リスクの計算結果に示す。
また、独立分散データと同一分散データの標準設定で存在する類似点と相違点についても検討する。
関連論文リスト
- Progression: an extrapolation principle for regression [0.0]
本稿では,新しい統計外挿原理を提案する。
これは、予測器とトレーニング予測器のサンプルの境界における応答との単純な関係を仮定する。
我々の半パラメトリック法である進行法は、この外挿原理を活用し、トレーニングデータ範囲を超えた近似誤差の保証を提供する。
論文 参考訳(メタデータ) (2024-10-30T17:29:51Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Conformal inference for regression on Riemannian Manifolds [49.7719149179179]
回帰シナリオの予測セットは、応答変数が$Y$で、多様体に存在し、Xで表される共変数がユークリッド空間にあるときに検討する。
我々は、多様体上のこれらの領域の経験的バージョンが、その集団に対するほぼ確実に収束していることを証明する。
論文 参考訳(メタデータ) (2023-10-12T10:56:25Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Variational Imbalanced Regression: Fair Uncertainty Quantification via Probabilistic Smoothing [11.291393872745951]
既存の回帰モデルは、ラベル分布が不均衡である場合、精度と不確実性の推定の両方において不足する傾向にある。
変分不均衡回帰(VIR)と呼ばれる確率的深層学習モデルを提案する。
VIRは不均衡回帰において良好に機能するが、自然に副産物として妥当な不確かさを推定する。
論文 参考訳(メタデータ) (2023-06-11T06:27:06Z) - High-dimensional analysis of double descent for linear regression with
random projections [0.0]
ランダムな投影数が異なる線形回帰問題を考察し、固定された予測問題に対する二重降下曲線を確実に示す。
まず、リッジ回帰推定器を考察し、非パラメトリック統計学の古典的概念を用いて先行結果を再解釈する。
次に、最小ノルム最小二乗の一般化性能(バイアスと分散の観点から)の同値をランダムな射影に適合させ、二重降下現象の単純な表現を与える。
論文 参考訳(メタデータ) (2023-03-02T15:58:09Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Performance of Bayesian linear regression in a model with mismatch [8.60118148262922]
本研究では,ガウス先行の対数対数対のベイズ分布の平均値から得られる推定器の性能を解析した。
この推論モデルは、スピングラスにおけるガードナーモデルのバージョンとして記述することができる。
論文 参考訳(メタデータ) (2021-07-14T18:50:13Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。