論文の概要: Bootstrap Sampling Rate Greater than 1.0 May Improve Random Forest Performance
- arxiv url: http://arxiv.org/abs/2410.04297v2
- Date: Wed, 22 Oct 2025 15:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:02.456272
- Title: Bootstrap Sampling Rate Greater than 1.0 May Improve Random Forest Performance
- Title(参考訳): ブートストラップサンプリングレートが1.0を超えると、森林のランダムなパフォーマンスが向上する可能性がある
- Authors: Stanisław Kaźmierczak, Jacek Mańdziuk,
- Abstract要約: ランダムフォレスト(RF)は、ブートストラップサンプリングを使用して、各コンポーネントツリーの個別のトレーニングセットを生成する。
ブートストラップ率(英: bootstrap rate, BR)は、各ブートストラップサンプルの観測回数とトレーニングインスタンスの総数との比率である。
BR値が高いと、標準設定に比べて分類精度が統計的に有意に向上することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Random forests (RFs) utilize bootstrap sampling to generate individual training sets for each component tree by sampling with replacement, with the sample size typically equal to that of the original training set ($N$). Previous research indicates that drawing fewer than $N$ observations can also yield satisfactory results. The ratio of the number of observations in each bootstrap sample to the total number of training instances is referred to as the bootstrap rate (BR). Sampling more than $N$ observations (BR $>$ 1.0) has been explored only to a limited extent and has generally been considered ineffective. In this paper, we revisit this setup using 36 diverse datasets, evaluating BR values ranging from 1.2 to 5.0. Contrary to previous findings, we show that higher BR values can lead to statistically significant improvements in classification accuracy compared to standard settings (BR $\leq$ 1.0). Furthermore, we analyze how BR affects the leaf structure of decision trees within the RF and investigate factors influencing the optimal BR. Our results indicate that the optimal BR is primarily determined by the characteristics of the data set rather than the RF hyperparameters.
- Abstract(参考訳): ランダムフォレスト(RF)はブートストラップサンプリングを使用して各コンポーネントツリーの個別のトレーニングセットを生成し、サンプルサイズは元のトレーニングセット(N$)と通常同じである。
これまでの研究では、$N$の観測値未満の描画でも満足な結果が得られることが示されている。
各ブートストラップサンプルの観察回数とトレーニングインスタンスの総数との比率をブートストラップレート(BR)と呼ぶ。
N$以上の観測値(BR $>$ 1.0)をサンプリングすることは、限られた範囲でしか探索されておらず、一般的には効果がないと考えられている。
本稿では,36種類のデータセットを用いてこの設定を再検討し,1.2から5.0までのBR値を評価する。
以上の結果とは対照的に,高いBR値が標準設定 (BR $\leq$1.0) と比較して統計的に有意な分類精度の向上をもたらす可能性が示唆された。
さらに, RF内の決定木の葉構造にBRがどう影響するかを解析し, 最適BRに影響を及ぼす要因について検討した。
その結果,最適なBRはRFハイパーパラメータではなくデータセットの特性によって決定されることがわかった。
関連論文リスト
- CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-03T17:47:29Z) - Random pairing MLE for estimation of item parameters in Rasch model [22.32547146723177]
ラッシュモデル(Rasch model)は、個人の潜伏特性と二分反応の関係をモデル化するために心理学において広く用いられている。
我々は、ラッシュモデルにおける項目パラメータを忠実に推定する新しい可能性に基づく推定器を導入する。
シミュレーションデータと実データを用いた2つの新しい推定器の有効性の実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-06-20T04:32:34Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
ヒューマンフィードバック(RLHF)からの強化学習を用いた大規模言語モデル(LLM)のアライメント
状況の均一なサンプリングは、最適政策と一定の準最適差を被る政策につながる可能性があることを示す。
我々は,最も不確実なコンテキストに対する嗜好を反復的に収集するアルゴリズムである$textttAPO$を提案する。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - EM for Mixture of Linear Regression with Clustered Data [6.948976192408852]
分散データにおけるクラスタ構造をどのように活用して学習手法を改善するかについて議論する。
我々は、既知の期待値最大化(EM)法を用いて、依存サンプルの$m$バッチから最大値パラメータを推定する。
構造化データ上のEMが適切であれば、$m$が$eo(n)$になる限り、同じ統計的精度に達するのに$O(1)$しか必要としないことを示す。
論文 参考訳(メタデータ) (2023-08-22T15:47:58Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Ranking Inferences Based on the Top Choice of Multiway Comparisons [2.468314282946207]
本稿では、各試行においてランダムに選択された項目のうち、上位選択の観測データに基づいて、$n$アイテムのランキングを考察する。
これは、M$-wayランキングに対するプラケット=リュックモデルの有用な修正であり、最高選択のみを観測し、M=2$に対応する祝賀されたブラッドリー=テリー=リュックモデルの延長である。
論文 参考訳(メタデータ) (2022-11-22T02:34:52Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments [5.625056584412003]
本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。
提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
論文 参考訳(メタデータ) (2022-06-20T21:27:18Z) - Sample Efficient Model Evaluation [30.72511219329606]
ラベルのないデータポイントの集合が与えられた場合、テストメトリクスをベストに見積もるためにどのサブセットを選択するかに対処する。
本稿では, よく知られたImportance Smplingというサンプリングベースアプローチと,Poisson Smplingの新たな応用を提案する。
論文 参考訳(メタデータ) (2021-09-24T16:03:58Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。