論文の概要: Challenges learning from imbalanced data using tree-based models: Prevalence estimates systematically depend on hyperparameters and can be upwardly biased
- arxiv url: http://arxiv.org/abs/2412.16209v1
- Date: Tue, 17 Dec 2024 19:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:50.074790
- Title: Challenges learning from imbalanced data using tree-based models: Prevalence estimates systematically depend on hyperparameters and can be upwardly biased
- Title(参考訳): 木に基づくモデルを用いた不均衡データから学ぶ課題:確率推定は系統的にハイパーパラメータに依存し、上向きにバイアスを受けることができる
- Authors: Nathan Phelps, Daniel J. Lizotte, Douglas G. Woolford,
- Abstract要約: 不均衡二項分類問題は、多くの研究分野において発生する。
モデルのトレーニングのための(より)バランスのとれたデータセットを作成するために、多数派のクラスをサブサンプルするのが一般的です。
これは、モデルが新しいデータと同じデータ生成プロセスに従わないデータセットから学習するため、モデルの予測をバイアスする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Imbalanced binary classification problems arise in many fields of study. When using machine learning models for these problems, it is common to subsample the majority class (i.e., undersampling) to create a (more) balanced dataset for model training. This biases the model's predictions because the model learns from a dataset that does not follow the same data generating process as new data. One way of accounting for this bias is to analytically map the resulting predictions to new values based on the sampling rate for the majority class, which was used to create the training dataset. While this approach may work well for some machine learning models, we have found that calibrating a random forest this way has unintended negative consequences, including prevalence estimates that can be upwardly biased. These prevalence estimates depend on both i) the number of predictors considered at each split in the random forest; and ii) the sampling rate used. We explain the former using known properties of random forests and analytical calibration. However, in investigating the latter issue, we made a surprising discovery - contrary to the widespread belief that decision trees are biased towards the majority class, they actually can be biased towards the minority class.
- Abstract(参考訳): 不均衡二項分類問題は、多くの研究分野において発生する。
これらの問題に機械学習モデルを使用する場合、モデルのトレーニングのための(より)バランスのとれたデータセットを作成するために、大多数のクラス(アンダーサンプリング)をサブサンプリングすることが一般的である。
これは、モデルが新しいデータと同じデータ生成プロセスに従わないデータセットから学習するため、モデルの予測をバイアスする。
このバイアスを説明する方法の1つは、トレーニングデータセットを作成するために使用された多数派クラスのサンプリングレートに基づいて、結果の予測結果を新しい値に分析的にマッピングすることである。
このアプローチは機械学習モデルではうまく機能するかも知れませんが、この方法でランダムな森林を校正することは、上向きにバイアスがかかる確率推定など、意図しないネガティブな結果をもたらすことが分かりました。
これらの有病率推定は両方に依存する
一 ランダム林の分割ごとに考慮される予測者の数及び
二 使用したサンプリング率
前者は無作為林の既知特性と解析的キャリブレーションを用いて説明する。
しかし、後者の問題の調査において、私たちは驚くべき発見をした — 決定木が多数派に偏っているという広く信じられているのとは対照的に、実際には少数派に偏っている。
関連論文リスト
- An Experimental Study on the Rashomon Effect of Balancing Methods in Imbalanced Classification [0.0]
本稿では,ラショモン効果を用いた予測多重度に及ぼすバランス法の影響について検討する。
データ中心のAIにおける盲点モデル選択は、ほぼ同じ精度のモデルのセットからリスクが高いため、非常に重要です。
論文 参考訳(メタデータ) (2024-03-22T13:08:22Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - A Statistical Model for Predicting Generalization in Few-Shot
Classification [6.158812834002346]
一般化誤差を予測するために,特徴分布のガウスモデルを導入する。
提案手法は, 相互検証戦略の離脱など, 代替案よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-13T10:21:15Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Certifying Robustness to Programmable Data Bias in Decision Trees [12.060443368097102]
学習者が生成したモデルは、潜在的なデータセットバイアスに対してポイントワイズで損なわれていることを証明します。
このアプローチでは,さまざまな次元にまたがるバイアスモデルを指定することが可能です。
フェアネス文献でよく用いられるデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-10-08T20:15:17Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - A Numerical Transform of Random Forest Regressors corrects
Systematically-Biased Predictions [0.0]
ランダムな森林モデルからの予測には体系的なバイアスがある。
このバイアスは単純な合成データセットで再カプセル化される。
トレーニングデータを使用して、それを完全に修正する数値変換を定義します。
論文 参考訳(メタデータ) (2020-03-16T21:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。