論文の概要: The out-of-sample $R^2$: estimation and inference
- arxiv url: http://arxiv.org/abs/2302.05131v1
- Date: Fri, 10 Feb 2023 09:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:11:30.005283
- Title: The out-of-sample $R^2$: estimation and inference
- Title(参考訳): the out-of-sample $R^2$: Estimation and inference
- Authors: Stijn Hawinkel, Willem Waegeman, Steven Maere
- Abstract要約: 2つの予測モデルの比較として、アウト・オブ・サンプルの$R2$を定義する。
我々は、$hatR2$の標準誤差を提供するために、データ分割推定の不確実性に関する最近の理論的進歩を利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Out-of-sample prediction is the acid test of predictive models, yet an
independent test dataset is often not available for assessment of the
prediction error. For this reason, out-of-sample performance is commonly
estimated using data splitting algorithms such as cross-validation or the
bootstrap. For quantitative outcomes, the ratio of variance explained to total
variance can be summarized by the coefficient of determination or in-sample
$R^2$, which is easy to interpret and to compare across different outcome
variables. As opposed to the in-sample $R^2$, the out-of-sample $R^2$ has not
been well defined and the variability on the out-of-sample $\hat{R}^2$ has been
largely ignored. Usually only its point estimate is reported, hampering formal
comparison of predictability of different outcome variables. Here we explicitly
define the out-of-sample $R^2$ as a comparison of two predictive models,
provide an unbiased estimator and exploit recent theoretical advances on
uncertainty of data splitting estimates to provide a standard error for the
$\hat{R}^2$. The performance of the estimators for the $R^2$ and its standard
error are investigated in a simulation study. We demonstrate our new method by
constructing confidence intervals and comparing models for prediction of
quantitative $\text{Brassica napus}$ and $\text{Zea mays}$ phenotypes based on
gene expression data.
- Abstract(参考訳): サンプル外予測は予測モデルのアシッドテストであるが、予測エラーの評価には独立したテストデータセットが利用できないことが多い。
このため,クロスバリデーションやブートストラップといったデータ分割アルゴリズムを用いて,サンプル外性能を推定することが一般的である。
定量的な結果について、全分散に説明される分散の比率は、決定係数または、解釈し易く、異なる結果変数間で比較できるインサンプル$R^2$で要約できる。
サンプル内$R^2$とは対照的に、サンプル外$R^2$は十分に定義されておらず、サンプル外$\hat{R}^2$の変数はほとんど無視されている。
通常、その点推定のみが報告され、異なる結果変数の予測可能性の形式的比較を妨げる。
ここでは、2つの予測モデルの比較としてサンプル外$R^2$を明示的に定義し、バイアスのない推定器を提供し、データ分割推定の不確実性に関する最近の理論的進歩を利用して、$\hat{R}^2$の標準誤差を与える。
シミュレーション実験において,R^2$に対する推定器の性能と標準誤差について検討した。
本稿では,信頼区間を構築し,遺伝子発現データに基づく量的$\text{brassica napus}$および$\text{zea mays}$表現型予測のためのモデルを比較することにより,新たな手法を示す。
関連論文リスト
- Near-Optimal Mean Estimation with Unknown, Heteroskedastic Variances [15.990720051907864]
Subset-of-Signalsモデルはヘテロスケダティック平均推定のベンチマークとして機能する。
我々のアルゴリズムは、このオープンな問題を対数的要因に分解する。
たとえ$d=2$であっても、我々の手法は各サンプルのばらつきを知るのに匹敵するレートを可能にします。
論文 参考訳(メタデータ) (2023-12-05T01:13:10Z) - The Projected Covariance Measure for assumption-lean variable significance testing [3.8936058127056357]
単純だが一般的なアプローチは、線形モデルを指定し、次に$X$の回帰係数が 0 でないかどうかをテストすることである。
条件付き平均独立性のモデルフリーなnullをテストする問題、すなわち条件付き平均の$Y$$$X$と$Z$は$X$に依存しない。
本稿では,加法モデルやランダムフォレストなど,柔軟な非パラメトリックあるいは機械学習手法を活用可能な,シンプルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-03T17:55:50Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Optimal Sub-Gaussian Mean Estimation in $\mathbb{R}$ [5.457150493905064]
ガウス下収束を考慮した新しい推定器を提案する。
我々の推定器はその分散に関する事前の知識を必要としない。
我々の推定器の構成と分析は、他の問題に一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-11-17T02:47:24Z) - Least Squares Estimation Using Sketched Data with Heteroskedastic Errors [0.0]
ランダムなプロジェクションによってスケッチされたデータを用いた推定は、エラーがホモスケダスティックであるかのように振る舞うことを示す。
楽器関連性の第一段階Fテストを含む推論は、スケッチスキームが適切に選択された場合の完全なサンプルケースよりも簡単である。
論文 参考訳(メタデータ) (2020-07-15T15:58:27Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - Error bounds in estimating the out-of-sample prediction error using
leave-one-out cross validation in high-dimensions [19.439945058410203]
高次元状態におけるサンプル外リスク推定の問題について検討する。
広範囲にわたる経験的証拠は、アウト・ワン・アウト・クロス・バリデーションの正確さを裏付ける。
この理論の技術的利点の1つは、拡張可能な近似LOに関する最近の文献から得られたいくつかの結果を明確化し、接続することができることである。
論文 参考訳(メタデータ) (2020-03-03T20:07:07Z) - Estimating Gradients for Discrete Random Variables by Sampling without
Replacement [93.09326095997336]
我々は、置換のないサンプリングに基づいて、離散確率変数に対する期待値の偏りのない推定器を導出する。
推定器は3つの異なる推定器のラオ・ブラックウェル化として導出可能であることを示す。
論文 参考訳(メタデータ) (2020-02-14T14:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。