論文の概要: Gain Confidence, Reduce Disappointment: A New Approach to
Cross-Validation for Sparse Regression
- arxiv url: http://arxiv.org/abs/2306.14851v1
- Date: Mon, 26 Jun 2023 17:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:29:24.821323
- Title: Gain Confidence, Reduce Disappointment: A New Approach to
Cross-Validation for Sparse Regression
- Title(参考訳): 失意感を和らげる利得信頼:スパース回帰に対するクロスバリデーションの新しいアプローチ
- Authors: Ryan Cory-Wright, Andr\'es G\'omez
- Abstract要約: クロスバリデーションはスパース回帰のコストを桁違いに増大させる。
検証メトリクスは、テストセットエラーのノイズの多い推定器です。
本稿では,不落感に対する妥当性を低下させるような,信頼度調整による残業の変種を提案する。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ridge regularized sparse regression involves selecting a subset of features
that explains the relationship between a design matrix and an output vector in
an interpretable manner. To select the sparsity and robustness of linear
regressors, techniques like leave-one-out cross-validation are commonly used
for hyperparameter tuning. However, cross-validation typically increases the
cost of sparse regression by several orders of magnitude. Additionally,
validation metrics are noisy estimators of the test-set error, with different
hyperparameter combinations giving models with different amounts of noise.
Therefore, optimizing over these metrics is vulnerable to out-of-sample
disappointment, especially in underdetermined settings. To address this, we
make two contributions. First, we leverage the generalization theory literature
to propose confidence-adjusted variants of leave-one-out that display less
propensity to out-of-sample disappointment. Second, we leverage ideas from the
mixed-integer literature to obtain computationally tractable relaxations of
confidence-adjusted leave-one-out, thereby minimizing it without solving as
many MIOs. Our relaxations give rise to an efficient coordinate descent scheme
which allows us to obtain significantly lower leave-one-out errors than via
other methods in the literature. We validate our theory by demonstrating we
obtain significantly sparser and comparably accurate solutions than via popular
methods like GLMNet and suffer from less out-of-sample disappointment. On
synthetic datasets, our confidence adjustment procedure generates significantly
fewer false discoveries, and improves out-of-sample performance by 2-5%
compared to cross-validating without confidence adjustment. Across a suite of
13 real datasets, a calibrated version of our procedure improves the test set
error by an average of 4% compared to cross-validating without confidence
adjustment.
- Abstract(参考訳): ridge正規化スパース回帰は、設計行列と出力ベクトルの関係を解釈可能な方法で説明する特徴のサブセットを選択することを伴う。
線形レグレプタのスパース性とロバスト性を選択するために、リセットワンアウトクロスバリデーションのような技法がハイパーパラメータチューニングに一般的に用いられる。
しかし、クロスバリデーションは典型的にはスパース回帰のコストを数桁増加させる。
さらに、検証メトリクスはテストセットエラーのノイズの多い推定器であり、異なるハイパーパラメータの組み合わせによって異なるノイズのモデルが得られる。
したがって、これらのメトリクスを最適化することは、特に過度に決定された設定において、サンプル外の失望に弱い。
これに対処するために、私たちは2つの貢献をします。
第一に, 一般化理論の文献を活用し, 期待外れへの適応性の低下を表わす, 信頼度調整型let-one-outを提案する。
第2に,混合整数文献のアイデアを活用し,信頼度調整された残余ワンアウトの計算可能な緩和度を得る。
我々の緩和は、文献の他の方法よりもはるかに低い残余誤差が得られる効率的な座標降下スキームを生み出します。
我々は,glmnet のような一般的な手法より著しくスパースで比較可能な解が得られることを示すことにより,この理論を検証する。
合成データセット上では, 信頼度調整手順は疑似発見を著しく少なくし, 信頼度調整を伴わないクロスバリデーションに比べ, サンプル外性能を2-5%向上させる。
提案手法の校正版では,13個の実データセットの集合全体にわたって,信頼度調整を伴わないクロスバリデーションに比べて,テストセットエラーを平均4%改善する。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Online Estimation with Rolling Validation: Adaptive Nonparametric
Estimation with Stream Data [15.440140432966787]
そこで本稿では,オンラインの相互検証方式である重み付き転がりバリデーション手法を提案する。
バッチクロスバリデーションと同様に、ベース推定器を強化して、より優れた適応収束率を達成することができる。
論文 参考訳(メタデータ) (2023-10-18T17:52:57Z) - The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing [91.51897617724816]
ディープニューラルネットワークの現実的な応用は、ノイズの多い入力や敵攻撃に直面した場合、その不安定な予測によって妨げられる。
本稿では,モンテカルロサンプリングによるランダムな平滑化過程推定における分散が,分類器のリプシッツ定数とマージンと密接な相互作用を示す。
我々はベルンシュタインの濃度不等式と拡張されたリプシッツ境界をランダム化平滑化に利用し、実験結果から現在の最先端手法と比較して精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2023-09-28T22:41:47Z) - Faithful Heteroscedastic Regression with Neural Networks [2.2835610890984164]
パラメータマップにニューラルネットワークを使用するパラメトリックメソッドは、データ内の複雑な関係をキャプチャすることができる。
ヘテロスセダティックなモデルを生成するために最適化に2つの簡単な修正を加え、ホモスセダティックなモデルとほぼ同等の精度で推定する。
提案手法は,等しくフレキシブルな平均値のみのモデルの精度を維持しつつ,クラスごとの分散キャリブレーションも提供する。
論文 参考訳(メタデータ) (2022-12-18T22:34:42Z) - Distributed Estimation and Inference for Semi-parametric Binary Response
Models [10.719978332351621]
本稿では,分散コンピューティング環境下での半パラメトリック二値選択モデルの最大スコア推定について検討する。
直感的な分割・対数推定器は計算コストが高く、機械数に対する非正規制約によって制限される。
論文 参考訳(メタデータ) (2022-10-15T23:06:46Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate
Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。
現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。
本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文 参考訳(メタデータ) (2021-05-28T06:59:49Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。