論文の概要: Bootstrap Sampling Rate Greater than 1.0 May Improve Random Forest Performance
- arxiv url: http://arxiv.org/abs/2410.04297v1
- Date: Sat, 5 Oct 2024 22:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:39:47.423456
- Title: Bootstrap Sampling Rate Greater than 1.0 May Improve Random Forest Performance
- Title(参考訳): ブートストラップサンプリングレートが1.0を超えると、森林のランダムなパフォーマンスが向上する可能性がある
- Authors: Stanisław Kaźmierczak, Jacek Mańdziuk,
- Abstract要約: ランダムフォレストはブートストラップサンプリングを使用して、各コンポーネントツリーの個別のトレーニングセットを作成する。
各ブートストラップサンプルの観察回数とトレーニングインスタンスの総数との比率をブートストラップレート(BR)と呼ぶ。
このようなパラメータ化は,標準設定に比べて分類精度が統計的に有意に向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Random forests utilize bootstrap sampling to create an individual training set for each component tree. This involves sampling with replacement, with the number of instances equal to the size of the original training set ($N$). Research literature indicates that drawing fewer than $N$ observations can also yield satisfactory results. The ratio of the number of observations in each bootstrap sample to the total number of training instances is called the bootstrap rate (BR). Sampling more than $N$ observations (BR $>$ 1) has been explored in the literature only to a limited extent and has generally proven ineffective. In this paper, we re-examine this approach using 36 diverse datasets and consider BR values ranging from 1.2 to 5.0. Contrary to previous findings, we show that such parameterization can result in statistically significant improvements in classification accuracy compared to standard settings (BR $\leq$ 1). Furthermore, we investigate what the optimal BR depends on and conclude that it is more a property of the dataset than a dependence on the random forest hyperparameters. Finally, we develop a binary classifier to predict whether the optimal BR is $\leq$ 1 or $>$ 1 for a given dataset, achieving between 81.88\% and 88.81\% accuracy, depending on the experiment configuration.
- Abstract(参考訳): ランダムフォレストはブートストラップサンプリングを使用して、各コンポーネントツリーの個別のトレーニングセットを作成する。
これは、元のトレーニングセットのサイズに等しいインスタンス数(N$)で置換されたサンプリングを伴う。
研究文献は、$N$未満の図面も満足な結果をもたらすことを示唆している。
各ブートストラップサンプルの観察回数とトレーニングインスタンスの総数との比率をブートストラップレート (BR) と呼ぶ。
N$以上の観測(BR $>$ 1)をサンプリングすることは、限られた範囲でしか研究されておらず、一般的には効果がないことが証明されている。
本稿では,36種類のデータセットを用いてこのアプローチを再検討し,1.2から5.0までのBR値について検討する。
従来の結果とは対照的に,このようなパラメータ化は,標準設定 (BR $\leq$ 1) と比較して,分類精度が統計的に有意に向上する可能性が示唆された。
さらに、最適なBRが依存するものについて検討し、ランダムな森林ハイパーパラメータへの依存よりもデータセットの特性であると結論づける。
最後に、最適なBRが与えられたデータセットに対して$\leq$1か$>$1であるかを予測し、実験構成に応じて81.88\%から88.81\%の精度を達成するバイナリ分類器を開発する。
関連論文リスト
- Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-03T17:47:29Z) - Random pairing MLE for estimation of item parameters in Rasch model [22.32547146723177]
ラッシュモデル(Rasch model)は、個人の潜伏特性と二分反応の関係をモデル化するために心理学において広く用いられている。
我々は、ラッシュモデルにおける項目パラメータを忠実に推定する新しい可能性に基づく推定器を導入する。
シミュレーションデータと実データを用いた2つの新しい推定器の有効性の実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-06-20T04:32:34Z) - EM for Mixture of Linear Regression with Clustered Data [6.948976192408852]
分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。
我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。
構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
論文 参考訳(メタデータ) (2023-08-22T15:47:58Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Ranking Inferences Based on the Top Choice of Multiway Comparisons [2.468314282946207]
本稿では、各試行においてランダムに選択された項目のうち、上位選択の観測データに基づいて、$n$アイテムのランキングを考察する。
これは、M$-wayランキングに対するプラケット=リュックモデルの有用な修正であり、最高選択のみを観測し、M=2$に対応する祝賀されたブラッドリー=テリー=リュックモデルの延長である。
論文 参考訳(メタデータ) (2022-11-22T02:34:52Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments [5.625056584412003]
本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。
提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
論文 参考訳(メタデータ) (2022-06-20T21:27:18Z) - Sample Efficient Model Evaluation [30.72511219329606]
ラベルのないデータポイントの集合が与えられた場合、テストメトリクスをベストに見積もるためにどのサブセットを選択するかに対処する。
本稿では, よく知られたImportance Smplingというサンプリングベースアプローチと,Poisson Smplingの新たな応用を提案する。
論文 参考訳(メタデータ) (2021-09-24T16:03:58Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。