論文の概要: Evaluating XGBoost for Balanced and Imbalanced Data: Application to
Fraud Detection
- arxiv url: http://arxiv.org/abs/2303.15218v1
- Date: Mon, 27 Mar 2023 13:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:03:56.108821
- Title: Evaluating XGBoost for Balanced and Imbalanced Data: Application to
Fraud Detection
- Title(参考訳): 不均衡データに対するXGBoostの評価:フラッド検出への応用
- Authors: Gissel Velarde, Anindya Sudhir, Sanjay Deshmane, Anuj Deshmunkh,
Khushboo Sharma and Vaibhav Joshi
- Abstract要約: 本稿では,データセットサイズとクラス分布の異なるXGboostの性能を評価する。
XGBoostは、検出性能と速度のために、いくつかのベンチマークで際立っているため、評価のために選択されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper evaluates XGboost's performance given different dataset sizes and
class distributions, from perfectly balanced to highly imbalanced. XGBoost has
been selected for evaluation, as it stands out in several benchmarks due to its
detection performance and speed. After introducing the problem of fraud
detection, the paper reviews evaluation metrics for detection systems or binary
classifiers, and illustrates with examples how different metrics work for
balanced and imbalanced datasets. Then, it examines the principles of XGBoost.
It proposes a pipeline for data preparation and compares a Vanilla XGBoost
against a random search-tuned XGBoost. Random search fine-tuning provides
consistent improvement for large datasets of 100 thousand samples, not so for
medium and small datasets of 10 and 1 thousand samples, respectively. Besides,
as expected, XGBoost recognition performance improves as more data is
available, and deteriorates detection performance as the datasets become more
imbalanced. Tests on distributions with 50, 45, 25, and 5 percent positive
samples show that the largest drop in detection performance occurs for the
distribution with only 5 percent positive samples. Sampling to balance the
training set does not provide consistent improvement. Therefore, future work
will include a systematic study of different techniques to deal with data
imbalance and evaluating other approaches, including graphs, autoencoders, and
generative adversarial methods, to deal with the lack of labels.
- Abstract(参考訳): 本稿では,データセットのサイズやクラス分布の異なるxgboostの性能を,完全バランスから高度不均衡まで評価する。
XGBoostは、検出性能と速度のために、いくつかのベンチマークで際立っているため、評価のために選択されている。
不正検出の問題を導入した後、本論文は検出システムやバイナリ分類器の評価メトリクスをレビューし、バランスのとれたデータセットに対して、異なるメトリクスがどのように機能するかを例示する。
そして、XGBoostの原理を調べます。
データ準備のためのパイプラインを提案し、Vanilla XGBoostとランダムに検索したXGBoostを比較する。
ランダム検索の微調整は、10万サンプルの大規模なデータセットに対して、それぞれ10万サンプルと1万サンプルの小さなデータセットに対して、一貫した改善を提供する。
さらに、XGBoost認識性能は、より多くのデータが利用可能になると向上し、データセットがより不均衡になるにつれて検出性能が低下する。
50,45,25,5%の正のサンプルによる分布試験では、検出性能の低下が最も多く、正のサンプルはわずか5%であった。
トレーニングセットのバランスを取ることは、一貫した改善を提供しない。
したがって、将来の研究には、データ不均衡に対処するための異なる技術に関する体系的な研究と、ラベルの欠如に対処するために、グラフ、オートエンコーダ、生成的な敵対的手法を含む他のアプローチの評価が含まれる。
関連論文リスト
- Graph Out-of-Distribution Generalization with Controllable Data
Augmentation [51.17476258673232]
グラフニューラルネットワーク(GNN)は,グラフ特性の分類において異常な性能を示した。
トレーニングとテストデータの選択バイアスが原因で、分散偏差が広まっています。
仮想サンプルの分布偏差を測定するためのOODキャリブレーションを提案する。
論文 参考訳(メタデータ) (2023-08-16T13:10:27Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - Spread Spurious Attribute: Improving Worst-group Accuracy with Spurious
Attribute Estimation [72.92329724600631]
本稿では,最悪のグループ精度を向上させるために,疑似属性に基づくアルゴリズムSpread Spurious Attributeを提案する。
各種ベンチマークデータセットに対する実験により,アルゴリズムはベースライン法より一貫して優れていることが示された。
また,提案したSSAは,フル (100%) のスプリアス特性監視を用いた手法に匹敵する性能を達成できることを実証した。
論文 参考訳(メタデータ) (2022-04-05T09:08:30Z) - Using calibrator to improve robustness in Machine Reading Comprehension [18.844528744164876]
ポストホックリランカとしてキャリブレータを用いてロバスト性を向上させる手法を提案する。
敵対的データセットを用いた実験結果から,我々のモデルは10%以上の性能向上を達成できることがわかった。
論文 参考訳(メタデータ) (2022-02-24T02:16:42Z) - Stable Prediction on Graphs with Agnostic Distribution Shift [105.12836224149633]
グラフニューラルネットワーク(GNN)は、ランダムにトレーニングとテストデータを分離した様々なグラフタスクに有効であることが示されている。
しかし、実際のアプリケーションでは、トレーニンググラフの分布はテストグラフとは異なるかもしれない。
本稿では,グラフ上での局所的およびグローバル的に安定な学習と予測を可能にする,GNNのための新しい安定な予測フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T02:45:47Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。