論文の概要: Stability-Adjusted Cross-Validation for Sparse Linear Regression
- arxiv url: http://arxiv.org/abs/2306.14851v2
- Date: Sat, 05 Oct 2024 13:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:08:51.170417
- Title: Stability-Adjusted Cross-Validation for Sparse Linear Regression
- Title(参考訳): スパース線形回帰に対する安定性調整型クロスバリデーション
- Authors: Ryan Cory-Wright, Andrés Gómez,
- Abstract要約: k倍のクロスバリデーションのようなクロスバリデーション技術はスパース回帰の計算コストを大幅に増大させる。
クロスバリデーションメトリックの重み付け和とモデルの出力安定性を最小化するハイパーパラメータの選択を提案する。
我々の信頼度調整手順は、13の実世界のデータセット上で、テストセットエラーを平均で2%削減する。
- 参考スコア(独自算出の注目度): 5.156484100374059
- License:
- Abstract: Given a high-dimensional covariate matrix and a response vector, ridge-regularized sparse linear regression selects a subset of features that explains the relationship between covariates and the response in an interpretable manner. To select the sparsity and robustness of linear regressors, techniques like k-fold cross-validation are commonly used for hyperparameter tuning. However, cross-validation substantially increases the computational cost of sparse regression as it requires solving many mixed-integer optimization problems (MIOs). Additionally, validation metrics often serve as noisy estimators of test set errors, with different hyperparameter combinations leading to models with different noise levels. Therefore, optimizing over these metrics is vulnerable to out-of-sample disappointment, especially in underdetermined settings. To improve upon this state of affairs, we make two key contributions. First, motivated by the generalization theory literature, we propose selecting hyperparameters that minimize a weighted sum of a cross-validation metric and a model's output stability, thus reducing the risk of poor out-of-sample performance. Second, we leverage ideas from the mixed-integer optimization literature to obtain computationally tractable relaxations of k-fold cross-validation metrics and the output stability of regressors, facilitating hyperparameter selection after solving fewer MIOs. These relaxations result in an efficient cyclic coordinate descent scheme, achieving lower validation errors than via traditional methods such as grid search. On synthetic datasets, our confidence adjustment procedure improves out-of-sample performance by 2%-5% compared to minimizing the k-fold error alone. On 13 real-world datasets, our confidence adjustment procedure reduces test set error by 2%, on average.
- Abstract(参考訳): 高次元の共変量行列と応答ベクトルが与えられたとき、リッジ規則化されたスパース線形回帰は、共変量と応答の関係を解釈可能な方法で説明する特徴のサブセットを選択する。
線形回帰器の幅と堅牢性を選択するために、k-foldクロスバリデーションのようなテクニックがハイパーパラメータチューニングに一般的に用いられている。
しかし、クロスバリデーションは、多くの混合整数最適化問題(MIO)の解決を必要とするため、スパース回帰の計算コストを大幅に増大させる。
さらに、検証メトリクスはテストセットエラーのノイズの多い推定器として機能し、異なるハイパーパラメータの組み合わせは異なるノイズレベルを持つモデルに繋がる。
したがって、これらのメトリクスを最適化することは、特に過度に決定された設定において、サンプル外の失望に弱い。
この状況を改善するために、我々は2つの重要な貢献をする。
まず、一般化理論の文献を動機として、クロスバリデーション計量の重み付け和とモデルの出力安定性を最小化するハイパーパラメータを選択することを提案する。
第二に、混合整数最適化の文献からのアイデアを活用して、k倍のクロスバリデーションの計算的緩和と回帰器の出力安定性を求め、MIOを減らした後のハイパーパラメータ選択を容易にする。
これらの緩和は効率的な循環座標降下法となり、グリッド探索のような従来の手法よりも検証誤差が低い。
合成データセット上では,k倍誤差のみを最小化した場合に比べ,信頼度調整法によりサンプル外性能は2%-5%向上する。
13の実世界のデータセットにおいて、信頼度調整手順により、テストセットエラーを平均で2%削減する。
関連論文リスト
- Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - ROTI-GCV: Generalized Cross-Validation for right-ROTationally Invariant Data [1.194799054956877]
高次元正規化回帰における2つの重要なタスクは、正確な予測のために正規化強度を調整し、サンプル外リスクを推定することである。
問題のある条件下でクロスバリデーションを確実に行うための新しいフレームワーク ROTI-GCV を導入する。
論文 参考訳(メタデータ) (2024-06-17T15:50:00Z) - Gradient-based bilevel optimization for multi-penalty Ridge regression
through matrix differential calculus [0.46040036610482665]
我々は,l2-正則化を用いた線形回帰問題に対する勾配に基づくアプローチを導入する。
提案手法はLASSO, Ridge, Elastic Netレグレッションよりも優れていることを示す。
勾配の解析は、自動微分と比較して計算時間の観点からより効率的であることが証明されている。
論文 参考訳(メタデータ) (2023-11-23T20:03:51Z) - Distributed Estimation and Inference for Semi-parametric Binary Response Models [8.309294338998539]
本稿では,分散コンピューティング環境下での半パラメトリック二値選択モデルの最大スコア推定について検討する。
直感的な分割・対数推定器は計算コストが高く、機械数に対する非正規制約によって制限される。
論文 参考訳(メタデータ) (2022-10-15T23:06:46Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。
ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。
シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文 参考訳(メタデータ) (2020-11-30T21:47:38Z) - Doubly Robust Semiparametric Difference-in-Differences Estimators with
High-Dimensional Data [15.27393561231633]
不均一な治療効果を推定するための2段半パラメトリック差分差分推定器を提案する。
第1段階では、確率スコアを推定するために、一般的な機械学習手法が使用できる。
第2段階ではパラメトリックパラメータと未知関数の両方の収束率を導出する。
論文 参考訳(メタデータ) (2020-09-07T15:14:29Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Component-wise Adaptive Trimming For Robust Mixture Regression [15.633993488010292]
既存のロバストな混合回帰法は、外層の存在下で外層推定を行うか、汚染レベルに関する事前の知識に依存するため、外層評価に苦しむ。
本稿では,適応的適応成分法 (Adaptive-wise Adaptive Component, CAT) と呼ばれる高速で効率的な混合回帰アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T20:59:16Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。