論文の概要: Extrapolated cross-validation for randomized ensembles
- arxiv url: http://arxiv.org/abs/2302.13511v3
- Date: Fri, 15 Dec 2023 21:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 21:04:29.941954
- Title: Extrapolated cross-validation for randomized ensembles
- Title(参考訳): ランダムアンサンブルに対する補間クロスバリデーション
- Authors: Jin-Hong Du, Pratik Patil, Kathryn Roeder, Arun Kumar Kuchibhotla
- Abstract要約: 本稿では,ランダム化アンサンブルにおけるアンサンブルとサブアンブルサイズを調整するためのクロスバリデーション手法ECVを提案する。
我々は,ECVが2乗予測リスクに対して$delta$-Optimalアンサンブルを得られることを示す。
サンプル分割クロスバリデーションと$K$-foldクロスバリデーションと比較して、ECVはサンプル分割を避けて高い精度を達成する。
- 参考スコア(独自算出の注目度): 2.3609229325947885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble methods such as bagging and random forests are ubiquitous in various
fields, from finance to genomics. Despite their prevalence, the question of the
efficient tuning of ensemble parameters has received relatively little
attention. This paper introduces a cross-validation method, ECV (Extrapolated
Cross-Validation), for tuning the ensemble and subsample sizes in randomized
ensembles. Our method builds on two primary ingredients: initial estimators for
small ensemble sizes using out-of-bag errors and a novel risk extrapolation
technique that leverages the structure of prediction risk decomposition. By
establishing uniform consistency of our risk extrapolation technique over
ensemble and subsample sizes, we show that ECV yields $\delta$-optimal (with
respect to the oracle-tuned risk) ensembles for squared prediction risk. Our
theory accommodates general ensemble predictors, only requires mild moment
assumptions, and allows for high-dimensional regimes where the feature
dimension grows with the sample size. As a practical case study, we employ ECV
to predict surface protein abundances from gene expressions in single-cell
multiomics using random forests. In comparison to sample-split cross-validation
and $K$-fold cross-validation, ECV achieves higher accuracy avoiding sample
splitting. At the same time, its computational cost is considerably lower owing
to the use of the risk extrapolation technique. Additional numerical results
validate the finite-sample accuracy of ECV for several common ensemble
predictors under a computational constraint on the maximum ensemble size.
- Abstract(参考訳): バッジやランダムな森林といったアンサンブルの手法は、財務学からゲノム学まで、様々な分野で広く使われている。
その頻度にもかかわらず、アンサンブルパラメータの効率的なチューニングに関する問題は比較的注目されていない。
本稿では,ランダム化アンサンブルにおけるアンサンブルとサブアンブルサイズを調整するためのクロスバリデーション法ECV(Extrapolated Cross-Validation)を提案する。
提案手法は,小アンサンブルサイズの初期推定器と,予測リスクの分解構造を利用した新しいリスク外挿手法の2つを主成分として構築した。
アンサンブルおよびサブサンプルサイズに対するリスク外挿手法の一様整合性を確立することにより、正方形予測リスクに対してECVが$\delta$-optimal(オラクル調整リスクに関する)アンサンブルを得ることを示す。
この理論は一般的なアンサンブル予測器に対応しており、穏やかなモーメント仮定しか必要とせず、サンプルサイズで特徴次元が大きくなる高次元のレジームを可能にする。
実践的なケーススタディとして、ランダムな森林を用いた単細胞マルチオミクスにおける遺伝子発現から表面タンパク質量の予測にECVを用いる。
サンプル分割クロスバリデーションと$K$-foldクロスバリデーションと比較して、ECVはサンプル分割を避けて高い精度を達成する。
同時に、その計算コストはリスク外挿技術を用いることにより大幅に低下する。
さらに,最大アンサンブルサイズに対する計算制約の下で,複数の共通アンサンブル予測器に対するECVの有限サンプル精度を検証した。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Precise Asymptotics of Bagging Regularized M-estimators [5.165142221427928]
我々は,アンサンブル推定器の正方形予測リスクを,正規化M値推定器のサブタグ化(サブサンプルブートストラップ集約)により特徴付ける。
我々の分析の鍵は、重なり合うサブサンプル上の推定値と残差との相関関係の結合挙動に関する新しい結果である。
サブサンプルサイズ,アンサンブルサイズ,正規化の併用最適化は,全データに対してのみ,正規化器の最適化を著しく上回る。
論文 参考訳(メタデータ) (2024-09-23T17:48:28Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - ROTI-GCV: Generalized Cross-Validation for right-ROTationally Invariant Data [1.194799054956877]
高次元正規化回帰における2つの重要なタスクは、正確な予測のために正規化強度を調整し、サンプル外リスクを推定することである。
問題のある条件下でクロスバリデーションを確実に行うための新しいフレームワーク ROTI-GCV を導入する。
論文 参考訳(メタデータ) (2024-06-17T15:50:00Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Asymptotically free sketched ridge ensembles: Risks, cross-validation, and tuning [5.293069542318491]
我々は、スケッチされたリッジ回帰アンサンブルの予測リスクを推定するために、ランダム行列理論を用いて、一般化されたクロスバリデーション(GCV)の整合性を確立する。
正方形の予測リスクに対して,無作為な等価な暗黙のリッジバイアスとスケッチに基づく分散を分解し,無限アンサンブルにおけるスケッチサイズのみによるグローバルなチューニングが可能であることを証明した。
また,小型のスケッチ付きリッジ・アンサンブルを用いて,GCVを用いて非ケッチ・リッジ・レグレッションのリスクを効率的に推定できるアンサンブル・トリックを提案する。
論文 参考訳(メタデータ) (2023-10-06T16:27:43Z) - Subsample Ridge Ensembles: Equivalences and Generalized Cross-Validation [4.87717454493713]
サブサンプリングに基づくリッジアンサンブルを比例法で検討した。
最適尾根なしアンサンブルのリスクが最適尾根予測器のリスクと一致することを証明した。
論文 参考訳(メタデータ) (2023-04-25T17:43:27Z) - Bagging in overparameterized learning: Risk characterization and risk
monotonization [2.6534407766508177]
本研究では, 比例法の下で, 適応型予測器の変種予測リスクについて検討した。
具体的には,タグ付き予測器の2乗誤差損失下での予測リスクを解析するための一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T17:45:58Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。