論文の概要: How Many Trees in a Random Forest? A Revisited Approach with Plateau Search and Optuna Integration
- arxiv url: http://arxiv.org/abs/2606.03549v1
- Date: Tue, 02 Jun 2026 12:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.985996
- Title: How Many Trees in a Random Forest? A Revisited Approach with Plateau Search and Optuna Integration
- Title(参考訳): ランダム林の樹木数 : プラトー探索とオプチュナ統合による再検討
- Authors: Vadim Porvatov, Andrey Dukhovny, Andrey Lange,
- Abstract要約: ランダムフォレストのためのHPOのための統合三重項ベースプラトー探索アルゴリズムを提案する。
この方法は、バッグ外スコアの相対的な変化を監視して、最小に近い十分なアンサンブルサイズを適応的に追跡する。
実験により、選択された木の数は共通の絶対値と大きく異なることが示されている。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperparameter optimization (HPO) for Random Forest faces a specific difficulty in tuning the number of trees: the predictive score typically improves monotonically with ensemble size, so standard methods such as Tree-structured Parzen Estimator (TPE) and Hyperband require a predefined search range and often drive the estimate toward its right boundary. Early-stopping strategies avoid fixing such a range, but can be sensitive to score noise and prone to premature stopping. To address this, we propose an integrated triplet-based plateau-search algorithm that removes the number of trees from the direct TPE search space and still exploits information accumulated across HPO trials. The method adaptively tracks a near-minimal sufficient ensemble size by monitoring relative changes in the out-of-bag (OOB) score across a triplet of forest sizes and shifting this triplet accordingly. This yields an automated and user-interpretable procedure based on a tolerance parameter. We also provide a theoretical analysis: we relate the proposed relative OOB-score criterion to the gap between the current and limiting scores, and derive an asymptotic variance estimate for the corresponding OOB-based absolute relative difference. Experiments show that the selected number of trees can differ substantially from the common heuristic: for most classical benchmark datasets it is smaller, whereas for some high-dimensional bioinformatics datasets, such as Arcene and Dorothea, it is larger. The source code and reproducible experiments are available at https://github.com/lange-am/rf_plateau_hpo.
- Abstract(参考訳): 予測スコアは通常、アンサンブルサイズで単調に改善するので、木構造パーゼン推定器(TPE)やハイパーバンドのような標準的な手法では、事前に定義された探索範囲を必要とし、しばしばその正しい境界に向かって推定を駆動する。
早期停止戦略はそのような範囲の修正は避けるが、ノイズのスコアや早期停止の傾向に敏感である。
そこで本研究では, 直接TPE探索空間から木数を取り除き, HPO 試験で蓄積した情報を活用する三重項に基づくプラトー探索アルゴリズムを提案する。
本手法は,森林面積の3倍にまたがるアウト・オブ・バッグ(OOB)スコアの相対的変化を監視し,それに応じて3倍に変化させることにより,最小の十分なアンサンブルサイズを適応的に追跡する。
これにより、寛容パラメータに基づいた自動化およびユーザ解釈可能なプロシージャが得られる。
また,提案したOOBスコア基準を電流と制限スコアのギャップに関連付け,対応するOOBベースの絶対相対差に対する漸近的分散推定を導出する。
実験の結果、選択された木の数は一般的なヒューリスティックと大きく異なることが示され、ほとんどの古典的なベンチマークデータセットでは小さいが、ArceneやDorotheaのような高次元のバイオインフォマティクスデータセットでは大きい。
ソースコードと再現可能な実験はhttps://github.com/lange-am/rf_plateau_hpo.comで公開されている。
関連論文リスト
- DiNo and RanBu: Lightweight Predictions from Shallow Random Forests [2.2080796858692575]
DiNoとRanBuは、小さな深度制限木を効率的な距離重み付き予測子に変換する。
RanBuは、ハイノイズ設定で、完全奥行きのランダムな森の精度を一致または超過する。
どちらの手法も量子レグレッションに直接拡張し、精度を相当なスピードゲインで維持する。
論文 参考訳(メタデータ) (2025-10-23T20:12:08Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Inference with Mondrian Random Forests [7.404568009919416]
我々は、モンドリアンのランダムな森林回帰推定器に対して、ベリー・エッセイン型中央極限定理とともに、正確なバイアスと分散特性を与える。
未知回帰関数に対する有効な統計的推測法を提案する。
効率的で実装可能なアルゴリズムは、バッチとオンラインの学習設定の両方に考案されている。
論文 参考訳(メタデータ) (2023-10-15T01:41:42Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Convex Polytope Trees [57.56078843831244]
コンベックスポリトープ木(CPT)は、決定境界の解釈可能な一般化によって決定木の系統を拡張するために提案される。
木構造が与えられたとき,木パラメータに対するCPTおよび拡張性のあるエンドツーエンドトレーニングアルゴリズムを効率的に構築する。
論文 参考訳(メタデータ) (2020-10-21T19:38:57Z) - Variable Skipping for Autoregressive Range Density Estimation [84.60428050170687]
深部自己回帰モデルを用いた距離密度推定を高速化する手法である可変スキップについて述べる。
可変スキップは、10-100$timesの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-10T19:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。