論文の概要: Error bounds in estimating the out-of-sample prediction error using
leave-one-out cross validation in high-dimensions
- arxiv url: http://arxiv.org/abs/2003.01770v1
- Date: Tue, 3 Mar 2020 20:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:07:09.902064
- Title: Error bounds in estimating the out-of-sample prediction error using
leave-one-out cross validation in high-dimensions
- Title(参考訳): 高次元における残差検定を用いたサンプル外予測誤差の推定における誤差境界
- Authors: Kamiar Rahnama Rad and Wenda Zhou and Arian Maleki
- Abstract要約: 高次元状態におけるサンプル外リスク推定の問題について検討する。
広範囲にわたる経験的証拠は、アウト・ワン・アウト・クロス・バリデーションの正確さを裏付ける。
この理論の技術的利点の1つは、拡張可能な近似LOに関する最近の文献から得られたいくつかの結果を明確化し、接続することができることである。
- 参考スコア(独自算出の注目度): 19.439945058410203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of out-of-sample risk estimation in the high dimensional
regime where both the sample size $n$ and number of features $p$ are large, and
$n/p$ can be less than one. Extensive empirical evidence confirms the accuracy
of leave-one-out cross validation (LO) for out-of-sample risk estimation. Yet,
a unifying theoretical evaluation of the accuracy of LO in high-dimensional
problems has remained an open problem. This paper aims to fill this gap for
penalized regression in the generalized linear family. With minor assumptions
about the data generating process, and without any sparsity assumptions on the
regression coefficients, our theoretical analysis obtains finite sample upper
bounds on the expected squared error of LO in estimating the out-of-sample
error. Our bounds show that the error goes to zero as $n,p \rightarrow \infty$,
even when the dimension $p$ of the feature vectors is comparable with or
greater than the sample size $n$. One technical advantage of the theory is that
it can be used to clarify and connect some results from the recent literature
on scalable approximate LO.
- Abstract(参考訳): 我々は,サンプルサイズ$n$ と機能数 $p$ の両方が大きく,かつ $n/p$ が 1 未満であるような高次元環境において,サンプル外リスク推定の問題を考察する。
広範囲な実証的証拠は、サンプル外リスク推定のためのremove-one-out cross validation(lo)の正確性を確認する。
しかし、高次元問題におけるLOの精度の統一理論的評価は未解決の問題のままである。
本稿では,一般化線形族におけるペナル化回帰のギャップを埋めることを目的とする。
データ生成過程に関する小さな仮定と回帰係数に関するスパース性仮定を伴わずに、我々の理論解析は、サンプル外誤差を推定する際のLOの期待二乗誤差に関する有限サンプル上限を求める。
我々の境界は、この誤差が、特徴ベクトルの次元$p$がサンプルサイズ$n$より大きい場合でも、$n,p \rightarrow \infty$としてゼロになることを示している。
この理論の技術的利点の1つは、スケーラブルな近似loに関する最近の文献からいくつかの結果を明確化し、結びつけることができることである。
関連論文リスト
- Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Doubly Robust Conditional Independence Testing with Generative Neural Networks [8.323172773256449]
本稿では、第3の確率ベクトル$Z$を与えられた2つのジェネリックランダムベクトル$X$と$Y$の条件独立性をテストする問題に対処する。
条件分布を明示的に推定しない新しい非パラメトリック試験法を提案する。
論文 参考訳(メタデータ) (2024-07-25T01:28:59Z) - Approximate Leave-one-out Cross Validation for Regression with $\ell_1$
Regularizers (extended version) [12.029919627622954]
微分不可能な正則化をもつ一般化線形モデル族において、幅広い問題に対する新しい理論を提案する。
n/p と SNR が固定され有界である間、|ALO - LO| は p が無限大に進むにつれて 0 となることを示す。
論文 参考訳(メタデータ) (2023-10-26T17:48:10Z) - Asymptotic Characterisation of Robust Empirical Risk Minimisation
Performance in the Presence of Outliers [18.455890316339595]
我々は,次元$d$とデータ点数$n$が固定比$alpha=n/d$で分岐した場合,高次元の線形回帰について検討し,出力率を含むデータモデルについて検討する。
我々は、$ell$-regularized $ell$, $ell_$, Huber損失を用いて、経験的リスク最小化(ERM)のパフォーマンスの正確性を提供する。
論文 参考訳(メタデータ) (2023-05-30T12:18:39Z) - Functional Linear Regression of Cumulative Distribution Functions [20.96177061945288]
本稿では,CDFを至る所で正確に推定する機能リッジ回帰に基づく推定手法を提案する。
固定設計, ランダム設計, 対逆コンテキストの場合の$widetilde O(sqrtd/n)$の推定誤差上限を示す。
パラメータ空間が無限次元ヒルベルト空間である無限次元モデルを定式化し、この設定に対して自己正規化推定誤差上限を確立する。
論文 参考訳(メタデータ) (2022-05-28T23:59:50Z) - Consistent Estimation for PCA and Sparse Regression with Oblivious
Outliers [13.244654316770815]
我々は効率よく計算可能で一貫した推定器を設計する機械を開発する。
スパース回帰では、最適なサンプルサイズ$ngsim (klog d)/alpha2$の整合性を達成する。
PCAの文脈では、パラメータ行列上の広いスパイキネス仮定の下で最適な誤差を保証する。
論文 参考訳(メタデータ) (2021-11-04T15:59:44Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。