論文の概要: Tree Boosting Methods for Balanced andImbalanced Classification and their Robustness Over Time in Risk Assessment
- arxiv url: http://arxiv.org/abs/2504.18133v1
- Date: Fri, 25 Apr 2025 07:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.679035
- Title: Tree Boosting Methods for Balanced andImbalanced Classification and their Robustness Over Time in Risk Assessment
- Title(参考訳): リスクアセスメントにおけるバランスとバランスの取れた分類と時間的ロバスト性
- Authors: Gissel Velarde, Michael Weichert, Anuj Deshmunkh, Sanjay Deshmane, Anindya Sudhir, Khushboo Sharma, Vaibhav Joshi,
- Abstract要約: XGBoostのようなツリーベースのメソッドは、検出性能と速度のために、いくつかのベンチマークで際立っている。
開発した手法は、トレーニングのためにより多くのデータが与えられることにより、認識性能を向上させる。
正値と負値で割った正値の比率によって決定される精度-リコールの基準線よりも、依然としてかなり優れている。
- 参考スコア(独自算出の注目度): 0.10925516251778125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most real-world classification problems deal with imbalanced datasets, posing a challenge for Artificial Intelligence (AI), i.e., machine learning algorithms, because the minority class, which is of extreme interest, often proves difficult to be detected. This paper empirically evaluates tree boosting methods' performance given different dataset sizes and class distributions, from perfectly balanced to highly imbalanced. For tabular data, tree-based methods such as XGBoost, stand out in several benchmarks due to detection performance and speed. Therefore, XGBoost and Imbalance-XGBoost are evaluated. After introducing the motivation to address risk assessment with machine learning, the paper reviews evaluation metrics for detection systems or binary classifiers. It proposes a method for data preparation followed by tree boosting methods including hyper-parameter optimization. The method is evaluated on private datasets of 1 thousand (K), 10K and 100K samples on distributions with 50, 45, 25, and 5 percent positive samples. As expected, the developed method increases its recognition performance as more data is given for training and the F1 score decreases as the data distribution becomes more imbalanced, but it is still significantly superior to the baseline of precision-recall determined by the ratio of positives divided by positives and negatives. Sampling to balance the training set does not provide consistent improvement and deteriorates detection. In contrast, classifier hyper-parameter optimization improves recognition, but should be applied carefully depending on data volume and distribution. Finally, the developed method is robust to data variation over time up to some point. Retraining can be used when performance starts deteriorating.
- Abstract(参考訳): ほとんどの現実世界の分類問題は、不均衡なデータセットに対処し、人工知能(AI)、すなわち機械学習アルゴリズムに挑戦している。
本論文は,データセットサイズやクラス分布の異なる木づくり手法の性能を,完全にバランスの取れた状態から高いバランスの取れた状態まで,実験的に評価する。
グラフデータの場合、XGBoostのようなツリーベースのメソッドは、検出性能と速度のために、いくつかのベンチマークで際立っている。
そのため、XGBoostとIm Balance-XGBoostが評価される。
機械学習によるリスクアセスメントに対処するモチベーションを導入した後、本論文は検出システムやバイナリ分類器の評価指標をレビューする。
ハイパーパラメータ最適化を含む木を補強する手法を提案する。
この手法は,50,45,25,5%の正の分布について,1000(K),10K,100Kのプライベートデータセットを用いて評価した。
予想通り,データ分布が不均衡になるにつれてF1スコアは減少するが,正の値と負の値で割った正の値の比率によって決定される精度・リコールの基準線よりもはるかに優れている。
トレーニングセットのバランスを取ることで、一貫した改善が得られず、検出が低下する。
対照的に、分類器のハイパーパラメータ最適化は認識を改善するが、データ量や分布に応じて慎重に適用する必要がある。
最後に、開発した手法は、ある時点までの時間的変化に対して堅牢である。
パフォーマンスが劣化し始めると、リトレーニングが利用できます。
関連論文リスト
- DRoP: Distributionally Robust Data Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Evaluating XGBoost for Balanced and Imbalanced Data: Application to
Fraud Detection [0.0]
本稿では,データセットサイズとクラス分布の異なるXGboostの性能を評価する。
XGBoostは、検出性能と速度のために、いくつかのベンチマークで際立っているため、評価のために選択されている。
論文 参考訳(メタデータ) (2023-03-27T13:59:22Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Experimenting with an Evaluation Framework for Imbalanced Data Learning
(EFIDL) [9.010643838773477]
データ不均衡は,ラベルの少ないビッグデータ分析において重要な問題のひとつだ。
機械学習アルゴリズムの性能を改善するために、多くのデータバランス法が導入された。
我々は不均衡なデータ学習のための新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-26T01:16:02Z) - A Case Study on the Classification of Lost Circulation Events During
Drilling using Machine Learning Techniques on an Imbalanced Large Dataset [0.0]
イランのアザデガン油田から得られた65,000以上のデータと階級不均衡問題を利用する。
データセットの17のパラメータのうち11は、5つの失われた循環イベントの分類に使用される。
分類モデルを生成するために,6つの基本機械学習アルゴリズムと4つのアンサンブル学習手法を用いた。
論文 参考訳(メタデータ) (2022-09-04T12:28:40Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。