論文の概要: Extrapolated cross-validation for randomized ensembles
- arxiv url: http://arxiv.org/abs/2302.13511v1
- Date: Mon, 27 Feb 2023 04:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 16:51:39.873110
- Title: Extrapolated cross-validation for randomized ensembles
- Title(参考訳): ランダムアンサンブルに対する補間クロスバリデーション
- Authors: Jin-Hong Du, Pratik Patil, Kathryn Roeder, Arun Kumar Kuchibhotla
- Abstract要約: ランダム化アンサンブルのアンサンブルサイズとサブアンブルサイズを調整するためのクロスバリデーション法ECVを提案する。
アンサンブルとサブサンプルサイズに対する均一な一貫性を確立することにより、正方形の予測リスクに対して、ECVが$delta$-optimal アンサンブルを得ることを示す。
- 参考スコア(独自算出の注目度): 4.339510167603376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble methods such as bagging and random forests are ubiquitous in fields
ranging from finance to genomics. However, the question of the efficient tuning
of ensemble parameters has received relatively little attention. In this paper,
we propose a cross-validation method, ECV (Extrapolated Cross-Validation), for
tuning the ensemble and subsample sizes of randomized ensembles. Our method
builds on two main ingredients: two initial estimators for small ensemble sizes
using out-of-bag errors and a novel risk extrapolation technique leveraging the
structure of the prediction risk decomposition. By establishing uniform
consistency over ensemble and subsample sizes, we show that ECV yields
$\delta$-optimal (with respect to the oracle-tuned risk) ensembles for squared
prediction risk. Our theory accommodates general ensemble predictors, requires
mild moment assumptions, and allows for high-dimensional regimes where the
feature dimension grows with the sample size. As an illustrative example, we
employ ECV to predict surface protein abundances from gene expressions in
single-cell multiomics using random forests. Compared to sample-split
cross-validation and K-fold cross-validation, ECV achieves higher accuracy
avoiding sample splitting. Meanwhile, its computational cost is considerably
lower owing to the use of the risk extrapolation technique. Further numerical
results demonstrate the finite-sample accuracy of ECV for several common
ensemble predictors.
- Abstract(参考訳): バッジやランダムな森林といったアンサンブルの手法は、金融学からゲノム学まで幅広い分野に広く存在している。
しかし,アンサンブルパラメータの効率的なチューニングに関する問題は比較的注目されていない。
本稿では,ランダム化アンサンブルのアンサンブルサイズとサブアンブルサイズを調整するためのクロスバリデーション法ECV(Extrapolated Cross-Validation)を提案する。
本手法は,袋外誤差を用いた小型アンサンブルサイズのための2つの初期推定器と,予測リスク分解の構造を利用した新たなリスク外挿手法を主成分とする。
アンサンブルとサブサンプルサイズに対する均一な一貫性を確立することで、ECVは正方形の予測リスクに対して$\delta$-optimal(オラクルチューニングリスクに関する)アンサンブルを得られることを示す。
この理論は一般のアンサンブル予測器に対応し、穏やかなモーメント仮定を必要とし、サンプルサイズで特徴次元が大きくなる高次元のレジームを可能にする。
実例として,無作為な森林を用いた単細胞マルチオミクスにおける遺伝子発現から表面タンパク質量を予測するためにECVを用いた。
試料分割クロスバリデーションとK折りクロスバリデーションと比較して、ECVは試料分割を避けて高い精度を達成する。
一方,その計算コストは,リスク補間手法を用いることにより大幅に低下する。
さらに数値的な結果は、複数の共通アンサンブル予測器におけるECVの有限サンプル精度を示している。
関連論文リスト
- Asymptotically free sketched ridge ensembles: Risks, cross-validation,
and tuning [6.253060482883244]
我々は、スケッチされたリッジ回帰アンサンブルの予測リスクを推定するために、ランダム行列理論を用いて、一般化されたクロスバリデーション(GCV)の整合性を確立する。
正方形の予測リスクに対して,無作為な等価な暗黙のリッジバイアスとスケッチに基づく分散を分解し,無限アンサンブルにおけるスケッチサイズのみによるグローバルなチューニングが可能であることを証明した。
また,小型のスケッチ付きリッジ・アンサンブルを用いて,GCVを用いて非ケッチ・リッジ・レグレッションのリスクを効率的に推定できるアンサンブル・トリックを提案する。
論文 参考訳(メタデータ) (2023-10-06T16:27:43Z) - Corrected generalized cross-validation for finite ensembles of penalized
estimators [4.228950537138618]
Generalized Cross-Vidation (GCV) は、正方形外乱予測リスクを推定するための広く使われている手法である。
GCV は 1 以上の大きさの有限アンサンブルに対して不整合であることを示す。
論文 参考訳(メタデータ) (2023-10-02T17:38:54Z) - Subsample Ridge Ensembles: Equivalences and Generalized Cross-Validation [4.87717454493713]
サブサンプリングに基づくリッジアンサンブルを比例法で検討した。
最適尾根なしアンサンブルのリスクが最適尾根予測器のリスクと一致することを証明した。
論文 参考訳(メタデータ) (2023-04-25T17:43:27Z) - Bagging in overparameterized learning: Risk characterization and risk
monotonization [2.6534407766508177]
本研究では, 比例法の下で, 適応型予測器の変種予測リスクについて検討した。
具体的には,タグ付き予測器の2乗誤差損失下での予測リスクを解析するための一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T17:45:58Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - Random Forest Weighted Local Fr\'echet Regression with Random Objects [52.25304029942005]
本稿では,新しいランダム森林重み付き局所Fr'echet回帰パラダイムを提案する。
最初の方法は,これらの重みを局所平均として利用し,条件付きFr'echet平均を解く。
第二の手法は局所線形Fr'echet回帰を行い、どちらも既存のFr'echet回帰法を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-10T09:10:59Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - AdaPT-GMM: Powerful and robust covariate-assisted multiple testing [0.7614628596146599]
偽発見率(FDR)制御を用いた複数検定の実証的ベイズ法を提案する。
本手法は,アダプティブp値しきい値法(AdaPT)をマスク方式の一般化により洗練する。
我々は、AdaPT-GMMと呼ばれる新しい手法が一貫して高出力を実現することを、広範囲にわたるシミュレーションと実データ例で示す。
論文 参考訳(メタデータ) (2021-06-30T05:06:18Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Survival Cluster Analysis [93.50540270973927]
異なるリスクプロファイルを持つサブポピュレーションを特定するために、生存分析には未解決の必要性がある。
このニーズに対処するアプローチは、個々の成果のキャラクタリゼーションを改善する可能性が高い。
論文 参考訳(メタデータ) (2020-02-29T22:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。