論文の概要: The Impact of Bootstrap Sampling Rate on Random Forest Performance in Regression Tasks
- arxiv url: http://arxiv.org/abs/2511.13952v1
- Date: Mon, 17 Nov 2025 22:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.825522
- Title: The Impact of Bootstrap Sampling Rate on Random Forest Performance in Regression Tasks
- Title(参考訳): ブートストラップサンプリング率が回帰作業におけるランダム森林性能に及ぼす影響
- Authors: Michał Iwaniuk, Mateusz Jarosz, Bartłomiej Borycki, Bartosz Jezierski, Jan Cwalina, Stanisław Kaźmierczak, Jacek Mańdziuk,
- Abstract要約: ランダムフォレスト(RF)は通常、トレーニングセットと同じサイズのブートストラップサンプルで各ツリーをトレーニングする。
本研究では, 0.2から5.0までのBRの変化が, 39の異種回帰データセットと16のRF構成におけるRF性能に与える影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Random Forests (RFs) typically train each tree on a bootstrap sample of the same size as the training set, i.e., bootstrap rate (BR) equals 1.0. We systematically examine how varying BR from 0.2 to 5.0 affects RF performance across 39 heterogeneous regression datasets and 16 RF configurations, evaluating with repeated two-fold cross-validation and mean squared error. Our results demonstrate that tuning the BR can yield significant improvements over the default: the best setup relied on BR \leq 1.0 for 24 datasets, BR > 1.0 for 15, and BR = 1.0 was optimal in 4 cases only. We establish a link between dataset characteristics and the preferred BR: datasets with strong global feature-target relationships favor higher BRs, while those with higher local target variance benefit from lower BRs. To further investigate this relationship, we conducted experiments on synthetic datasets with controlled noise levels. These experiments reproduce the observed bias-variance trade-off: in low-noise scenarios, higher BRs effectively reduce model bias, whereas in high-noise settings, lower BRs help reduce model variance. Overall, BR is an influential hyperparameter that should be tuned to optimize RF regression models.
- Abstract(参考訳): ランダムフォレスト(RF)は通常、トレーニングセットと同じサイズのブートストラップサンプルで各ツリーをトレーニングする。
系統的に、0.2から5.0までのBRの変化が、39の異種回帰データセットと16のRF構成にわたるRF性能にどのように影響するかを検証し、繰り返し2倍のクロスバリデーションと平均2乗誤差で評価した。
BR > 1.0 for 15, BR = 1.0 は 4 つのケースで最適であり, BR > 1.0 for 15 では BR > 1.0 が最適であった。
我々は,データセット特性と望ましいBRの関連性を確立する。グローバルな特徴目標関係を持つデータセットは,より高いBRを好む一方,より低いBRから高い局所的目標分散の恩恵を受ける。
この関係をさらに解明するために,制御ノイズレベルを持つ合成データセットの実験を行った。
これらの実験は、観測されたバイアス分散トレードオフを再現する:低雑音のシナリオでは、より高いBRはモデルバイアスを効果的に減少させるが、高雑音の環境では、低いBRはモデルの分散を減少させる。
全体として、BRはRF回帰モデルを最適化するために調整されるべき、影響力のあるハイパーパラメータである。
関連論文リスト
- Fantastic Pretraining Optimizers and Where to Find Them [59.56075036649332]
AdamWは長い間、言語モデルの事前訓練において支配的な勾配だった。
行列ベースの行列の高速化はモデルスケールに逆比例する。
論文 参考訳(メタデータ) (2025-09-02T07:43:22Z) - Modeling Item-Level Dynamic Variability with Residual Diffusion for Bundle Recommendation [20.49315938588095]
本稿では,モデルに依存しない生成フレームワークとして,Residual Diffusion for Bundle Recommendation (RDiffBR)を提案する。
6つのBRモデルと4つのパブリックデータセットの実験から、RDiffBRは、バックボーンBRモデルのリコールとNDCGのパフォーマンスを最大23%改善することが示された。
論文 参考訳(メタデータ) (2025-07-04T03:56:04Z) - Hard Negatives, Hard Lessons: Revisiting Training Data Quality for Robust Information Retrieval with LLMs [53.78110936809744]
堅牢で再帰的なモデルのトレーニングは通常、大規模なデータセットに依存します。
トレーニングデータセットにおいて、偽陰性を識別し、許容する。
トレーニングデータセットとコードは公開されています。
論文 参考訳(メタデータ) (2025-05-22T17:47:57Z) - Optimality and Adaptivity of Deep Neural Features for Instrumental Variable Regression [57.40108516085593]
ディープ・フィーチャー・インスツルメンタル・変数(DFIV)回帰(Deep Feature instrumental variable)は、ディープ・ニューラルネットワークによって学習されたデータ適応的特徴を用いたIV回帰に対する非パラメトリックなアプローチである。
DFIVアルゴリズムは,目的構造関数がベソフ空間にある場合,最小最適学習率を実現する。
論文 参考訳(メタデータ) (2025-01-09T01:22:22Z) - Bootstrap Sampling Rate Greater than 1.0 May Improve Random Forest Performance [0.0]
ランダムフォレスト(RF)は、ブートストラップサンプリングを使用して、各コンポーネントツリーの個別のトレーニングセットを生成する。
ブートストラップ率(英: bootstrap rate, BR)は、各ブートストラップサンプルの観測回数とトレーニングインスタンスの総数との比率である。
BR値が高いと、標準設定に比べて分類精度が統計的に有意に向上することを示した。
論文 参考訳(メタデータ) (2024-10-05T22:13:08Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。