論文の概要: On Variance Estimation of Random Forests
- arxiv url: http://arxiv.org/abs/2202.09008v1
- Date: Fri, 18 Feb 2022 03:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:35:40.532330
- Title: On Variance Estimation of Random Forests
- Title(参考訳): ランダム森林の変動推定について
- Authors: Tianning Xu, Ruoqing Zhu, Xiaofeng Shao
- Abstract要約: 本稿では,不完全U-統計量に基づく不偏分散推定器を開発する。
我々は,計算コストを増大させることなく,より低いバイアスとより正確な信頼区間のカバレッジを評価できることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble methods based on subsampling, such as random forests, are popular in
applications due to their high predictive accuracy. Existing literature views a
random forest prediction as an infinite-order incomplete U-statistic to
quantify its uncertainty. However, these methods focus on a small subsampling
size of each tree, which is theoretically valid but practically limited. This
paper develops an unbiased variance estimator based on incomplete U-statistics,
which allows the tree size to be comparable with the overall sample size,
making statistical inference possible in a broader range of real applications.
Simulation results demonstrate that our estimators enjoy lower bias and more
accurate confidence interval coverage without additional computational costs.
We also propose a local smoothing procedure to reduce the variation of our
estimator, which shows improved numerical performance when the number of trees
is relatively small. Further, we investigate the ratio consistency of our
proposed variance estimator under specific scenarios. In particular, we develop
a new "double U-statistic" formulation to analyze the Hoeffding decomposition
of the estimator's variance.
- Abstract(参考訳): ランダム森林のようなサブサンプリングに基づくアンサンブル法は、高い予測精度のために応用に人気がある。
既存の文献では、ランダムフォレスト予測は不確かさを定量化するための無限次不完全u統計として捉えられている。
しかし、これらの手法は、理論上は有効だが実際は限定的である各木の小さなサブサンプリングサイズに焦点を当てている。
本稿では,不完全u-統計に基づく偏りのない分散推定器を開発し,木のサイズをサンプルサイズ全体と比較し,より広い範囲の実際のアプリケーションで統計的推論を可能にした。
シミュレーションの結果,計算コストを増すことなく,バイアスの低減と信頼性区間の精度向上が期待できることがわかった。
また, 木数が比較的少ない場合に, 数値性能が向上した推定器の変動を低減するための局所的平滑化手法を提案する。
さらに,提案する分散推定器の比整合性についても検討した。
特に,エスチメータの分散のhoeffding分解を分析する新しい「二重u-statistic」式を開発した。
関連論文リスト
- Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Inference with Mondrian Random Forests [6.97762648094816]
我々は、モンドリアンのランダムな森林回帰推定器に対して、ベリー・エッセイン型中央極限定理とともに、正確なバイアスと分散特性を与える。
未知回帰関数に対する有効な統計的推測法を提案する。
効率的で実装可能なアルゴリズムは、バッチとオンラインの学習設定の両方に考案されている。
論文 参考訳(メタデータ) (2023-10-15T01:41:42Z) - Uncertainty Estimates of Predictions via a General Bias-Variance
Decomposition [7.811916700683125]
本稿では,適切なスコアに対するバイアス分散分解を導入し,分散項としてブレグマン情報を導出する。
モデルアンサンブルや信頼領域を含む下流タスクにおけるこの分解の実践的妥当性を示す。
論文 参考訳(メタデータ) (2022-10-21T21:24:37Z) - Wasserstein Distributionally Robust Estimation in High Dimensions:
Performance Analysis and Optimal Hyperparameter Tuning [0.0]
雑音線形測定から未知パラメータを推定するための分布的ロバストな推定フレームワークを提案する。
このような推定器の2乗誤差性能を解析する作業に着目する。
凸凹最適化問題の解法として2乗誤差を復元できることを示す。
論文 参考訳(メタデータ) (2022-06-27T13:02:59Z) - Confidence Band Estimation for Survival Random Forests [6.343191621807365]
サバイバル・ランダム・フォレスト(Survival random forest)は、検閲されたサバイバルデータをモデリングするための一般的な機械学習ツールである。
本稿では、無限次不完全U-統計学における最近の発展を延長することにより、バイアスのない信頼バンド推定を提案する。
数値解析により,提案手法は信頼性帯域を正確に推定し,所望のカバレッジ率を達成することを示す。
論文 参考訳(メタデータ) (2022-04-26T02:27:26Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Distributionally Robust Parametric Maximum Likelihood Estimation [13.09499764232737]
パラメトリックな名目分布に対して,最悪の場合のログロスを均一に最小化する,分布的に頑健な最大確率推定器を提案する。
我々の新しい頑健な推定器は、統計的整合性も享受し、回帰と分類の両方に有望な実験結果を提供する。
論文 参考訳(メタデータ) (2020-10-11T19:05:49Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Estimating Gradients for Discrete Random Variables by Sampling without
Replacement [93.09326095997336]
我々は、置換のないサンプリングに基づいて、離散確率変数に対する期待値の偏りのない推定器を導出する。
推定器は3つの異なる推定器のラオ・ブラックウェル化として導出可能であることを示す。
論文 参考訳(メタデータ) (2020-02-14T14:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。