論文の概要: High-dimensional regression with potential prior information on variable
importance
- arxiv url: http://arxiv.org/abs/2109.11281v1
- Date: Thu, 23 Sep 2021 10:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:51:39.478197
- Title: High-dimensional regression with potential prior information on variable
importance
- Title(参考訳): 可変重要性の事前情報を用いた高次元回帰
- Authors: Benjamin G. Stokell, Rajen D. Shah
- Abstract要約: 順序付けによって示されるモデルの列に適合する簡単なスキームを提案する。
リッジ回帰を用いた場合の全てのモデルの適合に対する計算コストは、リッジ回帰の1つの適合に留まらないことを示す。
モデル全体の整合性を大幅に高速化するために,従来の整合性を利用したラッソ回帰の戦略を述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are a variety of settings where vague prior information may be
available on the importance of predictors in high-dimensional regression
settings. Examples include ordering on the variables offered by their empirical
variances (which is typically discarded through standardisation), the lag of
predictors when fitting autoregressive models in time series settings, or the
level of missingness of the variables. Whilst such orderings may not match the
true importance of variables, we argue that there is little to be lost, and
potentially much to be gained, by using them. We propose a simple scheme
involving fitting a sequence of models indicated by the ordering. We show that
the computational cost for fitting all models when ridge regression is used is
no more than for a single fit of ridge regression, and describe a strategy for
Lasso regression that makes use of previous fits to greatly speed up fitting
the entire sequence of models. We propose to select a final estimator by
cross-validation and provide a general result on the quality of the best
performing estimator on a test set selected from among a number $M$ of
competing estimators in a high-dimensional linear regression setting. Our
result requires no sparsity assumptions and shows that only a $\log M$ price is
incurred compared to the unknown best estimator. We demonstrate the
effectiveness of our approach when applied to missing or corrupted data, and
time series settings. An R package is available on github.
- Abstract(参考訳): 高次元回帰設定における予測器の重要性について、曖昧な事前情報が得られる様々な設定がある。
例えば、経験的分散(通常は標準化によって破棄される)によって提供される変数の順序付け、時系列設定に自己回帰モデルを適用する際の予測子の遅延、変数の欠落のレベルなどである。
このような順序付けは変数の真の重要性に合致しないかもしれないが、それらを使用することで失われることはほとんどなく、得られるものも少なくなる。
順序付けによって示されるモデルの列に適合する簡単なスキームを提案する。
リッジ回帰を用いた場合の全てのモデル適合の計算コストは、リッジ回帰の1つの適合に留まらず、モデル全体の整合性を大幅に向上させるために、以前の整合性を利用したラッソ回帰の戦略を記述する。
高次元線形回帰設定の競合推定器の数$m$の中から選択したテストセットにおいて、クロスバリデーションにより最終推定器を選択し、最高の実行推定器の品質に関する一般的な結果を提供する。
この結果、空間的仮定を必要とせず、未知の最適推定値と比較すると、$\log M$の価格しか得られないことが示される。
行方不明データや破損データや時系列設定に適用した場合,提案手法の有効性を実証する。
Rパッケージはgithubで入手できる。
関連論文リスト
- Adaptive Optimization for Prediction with Missing Data [6.800113478497425]
適応線形回帰モデルの中には,命令規則と下流線形回帰モデルを同時に学習するのと等価なものもある。
ランダムにデータの欠落が強くない環境では,本手法はサンプル外精度を2~10%向上させる。
論文 参考訳(メタデータ) (2024-02-02T16:35:51Z) - The Adaptive $τ$-Lasso: Robustness and Oracle Properties [12.06248959194646]
本稿では,高次元データセット解析のためのロバストな$tau$-regression推定器の正規化版を紹介する。
得られた推定器はアダプティブ $tau$-Lasso と呼ばれ、外れ値や高平均点に対して堅牢である。
外れ値と高平均点に直面して、適応 $tau$-Lasso と $tau$-Lasso 推定器は、最高のパフォーマンスまたは最も近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-18T21:34:14Z) - ecpc: An R-package for generic co-data models for high-dimensional
prediction [0.0]
R-package ecpcはもともと、様々な、おそらく複数のコデータソースに対応していた。
本稿では,汎用コデータモデルのための手法とソフトウェアの拡張について述べる。
R-package squeezyにより,リッジのペナルティが弾性ネットペナルティにどのように変換されるかを示す。
論文 参考訳(メタデータ) (2022-05-16T12:55:19Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Bayesian Regression Approach for Building and Stacking Predictive Models
in Time Series Analytics [0.0]
本稿では,時系列モデルの構築と時系列の予測モデルへのベイズ回帰の利用について述べる。
これにより、時系列予測の不確実性を推定し、リスク特性の値を計算することができる。
論文 参考訳(メタデータ) (2022-01-06T12:58:23Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Ridge Regression Revisited: Debiasing, Thresholding and Bootstrap [4.142720557665472]
リッジレグレッションは、デバイアスとしきい値の設定の後、Lassoに対していくつかの利点をもたらすので、見直す価値があるかもしれない。
本稿では,デバイアス付き及びしきい値付きリッジ回帰法を定義し,一貫性とガウス近似の定理を証明した。
推定に加えて予測の問題も考慮し,予測間隔に合わせた新しいハイブリッドブートストラップアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-17T05:04:10Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。