論文の概要: Imputation for High-Dimensional Linear Regression
- arxiv url: http://arxiv.org/abs/2001.09180v1
- Date: Fri, 24 Jan 2020 19:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 05:35:35.810733
- Title: Imputation for High-Dimensional Linear Regression
- Title(参考訳): 高次元線形回帰に対するインプテーション
- Authors: Kabir Aladin Chandrasekher, Ahmed El Alaoui, Andrea Montanari
- Abstract要約: LASSOは乱数設定において最小推定率を保持することを示す。
この設定では、共同根源は未成年のままである。
- 参考スコア(独自算出の注目度): 8.841513006680886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study high-dimensional regression with missing entries in the covariates.
A common strategy in practice is to \emph{impute} the missing entries with an
appropriate substitute and then implement a standard statistical procedure
acting as if the covariates were fully observed. Recent literature on this
subject proposes instead to design a specific, often complicated or non-convex,
algorithm tailored to the case of missing covariates. We investigate a simpler
approach where we fill-in the missing entries with their conditional mean given
the observed covariates. We show that this imputation scheme coupled with
standard off-the-shelf procedures such as the LASSO and square-root LASSO
retains the minimax estimation rate in the random-design setting where the
covariates are i.i.d.\ sub-Gaussian. We further show that the square-root LASSO
remains \emph{pivotal} in this setting.
It is often the case that the conditional expectation cannot be computed
exactly and must be approximated from data. We study two cases where the
covariates either follow an autoregressive (AR) process, or are jointly
Gaussian with sparse precision matrix. We propose tractable estimators for the
conditional expectation and then perform linear regression via LASSO, and show
similar estimation rates in both cases. We complement our theoretical results
with simulations on synthetic and semi-synthetic examples, illustrating not
only the sharpness of our bounds, but also the broader utility of this strategy
beyond our theoretical assumptions.
- Abstract(参考訳): 共変項の項目を欠いた高次元回帰について検討する。
実際には一般的な戦略は、不足したエントリを適切な代用で \emph{impute} し、余変数が完全に観察されたかのように振る舞う標準的な統計手続きを実行することである。
この問題に関する最近の文献では、その代わりに特定の、しばしば複雑な、あるいは非凸なアルゴリズムを設計することを提案している。
観測された共変量の条件付き平均で欠落したエントリを記入するより単純なアプローチについて検討する。
本稿では,この計算手法とLASSOや正方根LASSOのような標準オフザシェルフ法が組み合わさって,共変量<i.d.\サブガウス的なランダム設計条件における最小値推定率を保持することを示す。
さらに、この設定では平方根 LASSO が \emph{pivotal} のままであることを示す。
条件付き予測が正確に計算できず、データから近似しなければならない場合がしばしばある。
本研究は,共変体が自己回帰(AR)過程に従うか,あるいは疎精度行列を伴ってガウス的である2症例について検討した。
条件付き期待値の抽出可能な推定器を提案し,lassoによる線形回帰を行い,両者で同様の推定率を示す。
我々の理論結果を合成および半合成の例のシミュレーションで補完し、境界の鋭さだけでなく、理論的な仮定を超えてこの戦略の広範な有用性を示す。
関連論文リスト
- Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - On Model Identification and Out-of-Sample Prediction of Principal
Component Regression: Applications to Synthetic Controls [20.96904429337912]
固定設計による高次元誤差変数設定における主成分回帰(PCR)の解析を行う。
我々は、最もよく知られたレートで改善される非漸近的なアウト・オブ・サンプル予測の保証を確立する。
論文 参考訳(メタデータ) (2020-10-27T17:07:36Z) - Robust High Dimensional Expectation Maximization Algorithm via Trimmed
Hard Thresholding [24.184520829631587]
本研究では,高次元空間における任意の劣化サンプルを用いた潜在変数モデルの推定問題について検討する。
本稿では,トリミング勾配ステップを付加したトリミング予測最大化法を提案する。
アルゴリズムは汚損防止であり、幾何学的に(ほぼ)最適統計率に収束することを示す。
論文 参考訳(メタデータ) (2020-10-19T15:00:35Z) - Robust regression with covariate filtering: Heavy tails and adversarial
contamination [6.939768185086755]
より強い汚染モデルにおいて,ハマー回帰,最小トリミング正方形,最小絶対偏差推定器を同時に計算および統計的に効率的に推定する方法を示す。
この設定では、ハマー回帰推定器がほぼ最適誤差率を達成するのに対し、最小のトリミング正方形と最小の絶対偏差推定器は、後処理ステップを適用した後、ほぼ最適誤差を達成することができる。
論文 参考訳(メタデータ) (2020-09-27T22:48:48Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z) - Learning Minimax Estimators via Online Learning [55.92459567732491]
確率分布のパラメータを推定するミニマックス推定器を設計する際の問題点を考察する。
混合ケースナッシュ平衡を求めるアルゴリズムを構築した。
論文 参考訳(メタデータ) (2020-06-19T22:49:42Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。