論文の概要: When do Random Forests work?
- arxiv url: http://arxiv.org/abs/2504.12860v1
- Date: Thu, 17 Apr 2025 11:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:46.992898
- Title: When do Random Forests work?
- Title(参考訳): ランダムフォレストはいつ機能するのか?
- Authors: C. Revelas, O. Boldea, B. J. M. Werker,
- Abstract要約: ランダム林における分割方向のランダム化の有効性について検討した。
その結果,SNR が低い場合,SNR と森林がバッジを上回り,ばらつきが増大する傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We study the effectiveness of randomizing split-directions in random forests. Prior literature has shown that, on the one hand, randomization can reduce variance through decorrelation, and, on the other hand, randomization regularizes and works in low signal-to-noise ratio (SNR) environments. First, we bring together and revisit decorrelation and regularization by presenting a systematic analysis of out-of-sample mean-squared error (MSE) for different SNR scenarios based on commonly-used data-generating processes. We find that variance reduction tends to increase with the SNR and forests outperform bagging when the SNR is low because, in low SNR cases, variance dominates bias for both methods. Second, we show that the effectiveness of randomization is a question that goes beyond the SNR. We present a simulation study with fixed and moderate SNR, in which we examine the effectiveness of randomization for other data characteristics. In particular, we find that (i) randomization can increase bias in the presence of fat tails in the distribution of covariates; (ii) in the presence of irrelevant covariates randomization is ineffective because bias dominates variance; and (iii) when covariates are mutually correlated randomization tends to be effective because variance dominates bias. Beyond randomization, we find that, for both bagging and random forests, bias can be significantly reduced in the presence of correlated covariates. This last finding goes beyond the prevailing view that averaging mostly works by variance reduction. Given that in practice covariates are often correlated, our findings on correlated covariates could open the way for a better understanding of why random forests work well in many applications.
- Abstract(参考訳): ランダム林における分割方向のランダム化の有効性について検討した。
従来の文献では、ランダム化はデコリレーションによってばらつきを減らし、一方、ランダム化は低信号-雑音比(SNR)環境で正規化して機能することが示された。
まず、一般的なデータ生成プロセスに基づいて異なるSNRシナリオに対して、サンプル外平均二乗誤差(MSE)の体系的解析を行うことにより、デコリレーションと正規化をまとめ、再検討する。
その結果,SNR が低い場合,SNR が低い場合には,SNR と森林がバッジを上回り,ばらつきが増大する傾向がみられた。
第二に、ランダム化の有効性はSNRを超えた問題であることを示す。
本研究では,固定および中等度SNRを用いたシミュレーション実験を行い,他のデータ特性に対するランダム化の有効性について検討する。
特に、私たちはそれを見つけます。
i) 変量化は,共変量の分布において,脂肪尾の存在においてバイアスを増大させることができる。
(ii)無関係な共変量確率化の存在下では、バイアスが分散を支配するため、効果がない。
三 共変分が相互に相関するランダム化である場合、分散がバイアスを支配しているため、有効である傾向がある。
ランダム化以外にも、バギングとランダムな森林では、相関する共変量の存在下でバイアスが著しく減少することがわかった。
この最後の発見は、平均化が主に分散還元によって働くという一般的な見方を越えている。
実際にコヴァリエートはよく相関しているので、相関するコヴァリエートに関する我々の研究結果は、ランダムな森林が多くのアプリケーションでうまく機能する理由をよりよく理解するための道を開く可能性がある。
関連論文リスト
- Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - Randomization Can Reduce Both Bias and Variance: A Case Study in Random Forests [16.55139316146852]
我々は、しばしば見落とされがちな現象について研究し、最初はカテブレイマン2001randomで指摘され、ランダムな森林は、バッグングに比べて偏見を減らしているように見える。
我々の観察は、様々なSNRにおけるランダム林の現実的な成功についての洞察を与え、ランダム林とバッグアンサンブルの違いの理解を深める。
論文 参考訳(メタデータ) (2024-02-20T02:36:26Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Optimally tackling covariate shift in RKHS-based nonparametric
regression [43.457497490211985]
我々は、慎重に選択された正規化パラメータを持つカーネルリッジ回帰推定器がミニマックスレート最適であることを示す。
また,関数クラスに対する経験的リスクを最小限に抑えるナイーブ推定器は,厳密に準最適であることを示す。
そこで本研究では, 再重み付きKRR推定器を提案する。
論文 参考訳(メタデータ) (2022-05-06T02:33:24Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - On Variance Estimation of Random Forests [0.0]
本稿では,不完全U-統計量に基づく不偏分散推定器を開発する。
我々は,計算コストを増大させることなく,より低いバイアスとより正確な信頼区間のカバレッジを評価できることを示した。
論文 参考訳(メタデータ) (2022-02-18T03:35:47Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Interpretable random forest models through forward variable selection [0.0]
損失関数としてCRPS(Continuous Rank probability score)を用いた前方変数選択法を開発した。
本手法のオランダにおける日次最大気温予測の統計的後処理への応用を実証する。
論文 参考訳(メタデータ) (2020-05-11T13:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。