論文の概要: Rademacher upper bounds for cross-validation errors with an application
to the lasso
- arxiv url: http://arxiv.org/abs/2007.15598v1
- Date: Thu, 30 Jul 2020 17:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 13:32:34.069587
- Title: Rademacher upper bounds for cross-validation errors with an application
to the lasso
- Title(参考訳): クロスバリデーション誤差に対するラデマッハ上界とlassoへの応用
- Authors: Ning Xu, Timothy C.G. Fisher, Jian Hong
- Abstract要約: 我々は、K$-foldクロスバリデーション(K$-CV)エラーに対する一般的な上限を確立する。
CV誤差上限は軽テール分布と重テール誤差分布の両方に適用される。
CVエラー上限を$K$-CVベースのアルゴリズムで計算するためのPythonパッケージを提供する。
- 参考スコア(独自算出の注目度): 6.837167110907022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We establish a general upper bound for $K$-fold cross-validation ($K$-CV)
errors that can be adapted to many $K$-CV-based estimators and learning
algorithms. Based on Rademacher complexity of the model and the
Orlicz-$\Psi_{\nu}$ norm of the error process, the CV error upper bound applies
to both light-tail and heavy-tail error distributions. We also extend the CV
error upper bound to $\beta$-mixing data using the technique of independent
blocking. We provide a Python package (\texttt{CVbound},
\url{https://github.com/isaac2math}) for computing the CV error upper bound in
$K$-CV-based algorithms. Using the lasso as an example, we demonstrate in
simulations that the upper bounds are tight and stable across different
parameter settings and random seeds. As well as accurately bounding the CV
errors for the lasso, the minimizer of the new upper bounds can be used as a
criterion for variable selection. Compared with the CV-error minimizer,
simulations show that tuning the lasso penalty parameter according to the
minimizer of the upper bound yields a more sparse and more stable model that
retains all of the relevant variables.
- Abstract(参考訳): K$-fold cross-validation(K$-CV)エラーに対する一般的な上限を確立し、多くのK$-CVベースの推定器や学習アルゴリズムに適用できる。
モデルのラデマッハ複雑性とエラープロセスのorlicz-$\psi_{\nu}$ノルムに基づいて、cv誤差上限はライトテールとヘビーテールの誤差分布の両方に適用される。
また,独立ブロッキング技術を用いて,CVエラー上限を$\beta$-mixingデータに拡張する。
CVエラー上限をK$-CVアルゴリズムで計算するためのPythonパッケージ(\texttt{CVbound}, \url{https://github.com/isaac2math})を提供する。
シミュレーションでは,lassoを例として,異なるパラメータ設定とランダム種において上界が密接かつ安定であることを実証する。
ラッソのCV誤差を正確に制限するだけでなく、新しい上界の最小化器を可変選択の基準として使うことができる。
CV-エラー最小化器と比較して、上界の最小値に応じてラッソのペナルティパラメータをチューニングすると、関連する変数をすべて保持するよりスパースでより安定したモデルが得られる。
関連論文リスト
- On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Bayes beats Cross Validation: Efficient and Accurate Ridge Regression
via Expectation Maximization [3.061662434597098]
本稿では,正規化ハイパーパラメータである$lambda$について,LOOCV(Left-out-out Cross-validation)よりも高速に計算できる手法を提案する。
提案手法は,比較的穏やかな条件下で,十分大きな$n$に対して,一意の最適解を求めることが保証されている。
論文 参考訳(メタデータ) (2023-10-29T01:13:55Z) - REAL: A Representative Error-Driven Approach for Active Learning [15.477921200056887]
$REAL$は、$underlineR$epresentative $underlineE$rrors for $underlineA$ctive $underlineL$でデータインスタンスを選択する新しいアプローチである。
クラスタ内のEmphpseudoエラーとしてマイノリティ予測を識別し、推定エラー密度に基づいてクラスタの適応的なサンプリング予算を割り当てる。
論文 参考訳(メタデータ) (2023-07-03T12:39:26Z) - Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing [30.508036898655114]
プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。
正規化がない場合の勾配降下は、グリーディプルーニングに適さないモデル、すなわち、多くの列が最大値に匹敵する$ell$ノルムを持つことができる。
以上の結果から,グリーディ・プルーニング+ファインチューニングがより小さなモデルに繋がる理由について,より厳密な考察が得られた。
論文 参考訳(メタデータ) (2023-03-20T21:05:44Z) - Optimal Query Complexities for Dynamic Trace Estimation [59.032228008383484]
我々は,行列がゆっくりと変化している動的環境において,正確なトレース推定に必要な行列ベクトルクエリ数を最小化する問題を考える。
我々は、$delta$失敗確率で$epsilon$エラーまで、すべての$m$トレースを同時に推定する新しいバイナリツリー要約手順を提供する。
我々の下界(1)は、静的な設定においてもフロベニウスノルム誤差を持つ行列ベクトル積モデルにおけるハッチンソン推定子の第一の厳密な境界を与え、(2)動的トレース推定のための最初の無条件下界を与える。
論文 参考訳(メタデータ) (2022-09-30T04:15:44Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Confidence intervals for the Cox model test error from cross-validation [91.3755431537592]
クロスバリデーション(CV)は、モデルの試験誤差を推定する統計学習において最も広く使われている手法の1つである。
CVからの推定値を用いたテストエラーの標準信頼区間は、名目レベル以下である可能性がある。
この問題の1つの方法は、ネストされたCVを使って予測誤差の平均2乗誤差を推定することである。
論文 参考訳(メタデータ) (2022-01-26T06:40:43Z) - Can we globally optimize cross-validation loss? Quasiconvexity in ridge
regression [38.18195443944592]
尾根回帰の場合, CV損失は準研究ではなく, 複数の局所的最適度を有する可能性がある。
より一般に、準平坦状態は最適なデータ応答の多くの特性とは無関係であることを示す。
論文 参考訳(メタデータ) (2021-07-19T23:22:24Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。