論文の概要: Impact of Sampling Techniques and Data Leakage on XGBoost Performance in Credit Card Fraud Detection
- arxiv url: http://arxiv.org/abs/2412.07437v1
- Date: Tue, 10 Dec 2024 11:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:16.454338
- Title: Impact of Sampling Techniques and Data Leakage on XGBoost Performance in Credit Card Fraud Detection
- Title(参考訳): クレジットカード不正検出におけるサンプリング手法とデータ漏洩がXGBoost性能に及ぼす影響
- Authors: Siyaxolisa Kabane,
- Abstract要約: 本研究では,クレジットカード不正検出におけるXGBoostの性能の3つのシナリオによる比較分析を行った。
サンプリング戦略はモデル性能を向上させるが,結果の信頼性は適用時に大きく影響する。
サンプリングフェーズ中に機械学習モデルで頻繁に発生するデータリーク問題のため、列車のスプリット前にサンプリングを適用したデータに基づいてトレーニングされたXGBoostモデルは、人工的に膨らませたパフォーマンス指標を表示する可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Credit card fraud detection remains a critical challenge in financial security, with machine learning models like XGBoost(eXtreme gradient boosting) emerging as powerful tools for identifying fraudulent transactions. However, the inherent class imbalance in credit card transaction datasets poses significant challenges for model performance. Although sampling techniques are commonly used to address this imbalance, their implementation sometimes precedes the train-test split, potentially introducing data leakage. This study presents a comparative analysis of XGBoost's performance in credit card fraud detection under three scenarios: Firstly without any imbalance handling techniques, secondly with sampling techniques applied only to the training set after the train-test split, and third with sampling techniques applied before the train-test split. We utilized a dataset from Kaggle of 284,807 credit card transactions, containing 0.172\% fraudulent cases, to evaluate these approaches. Our findings show that although sampling strategies enhance model performance, the reliability of results is greatly impacted by when they are applied. Due to a data leakage issue that frequently occurs in machine learning models during the sampling phase, XGBoost models trained on data where sampling was applied prior to the train-test split may have displayed artificially inflated performance metrics. Surprisingly, models trained with sampling techniques applied solely to the training set demonstrated significantly lower results than those with pre-split sampling, all the while preserving the integrity of the evaluation process.
- Abstract(参考訳): クレジットカード詐欺検出は金融セキュリティにおいて依然として重要な課題であり、不正取引を識別するための強力なツールとしてXGBoost(eXtremeグラデーション)のような機械学習モデルが登場している。
しかし、クレジットカードトランザクションデータセットの固有のクラス不均衡は、モデルのパフォーマンスに重大な課題をもたらす。
この不均衡に対処するためにサンプリング技術が一般的に使用されるが、その実装は時として列車の分割に先行し、データ漏洩を引き起こす可能性がある。
本研究では,カード不正検出におけるXGBoostの性能を3つのシナリオで比較検討した。まず,不均衡ハンドリング手法を使わずに,第2に,テスト分割後のトレーニングセットにのみ適用したサンプリング技術,第3に,テスト分割前に適用したサンプリング技術である。
詐欺事件の0.172\%を含む284,807件のクレジットカード取引をKaggleから収集したデータセットを用いて,これらのアプローチを評価した。
その結果, サンプリング手法はモデル性能を向上させるが, 結果の信頼性は適用時に大きく影響することがわかった。
サンプリングフェーズ中に機械学習モデルで頻繁に発生するデータリークの問題のため、列車のスプリット前にサンプリングを適用したデータに基づいてトレーニングされたXGBoostモデルは、人工的に膨らませたパフォーマンス指標を表示する可能性がある。
驚くべきことに、トレーニングセットにのみ適用されたサンプリング技術で訓練されたモデルでは、評価プロセスの完全性を維持しながら、プリスプリットサンプリングしたモデルよりも有意に低い結果が得られた。
関連論文リスト
- Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - A Data-Centric Approach for Improving Adversarial Training Through the
Lens of Out-of-Distribution Detection [0.4893345190925178]
複雑なアルゴリズムを適用して効果を緩和するのではなく, トレーニング手順から直接ハードサンプルを検出し, 除去することを提案する。
SVHN と CIFAR-10 データセットを用いた結果,計算コストの増大を伴わずに対角訓練の改善に本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-01-25T08:13:50Z) - DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。
提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。
複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文 参考訳(メタデータ) (2022-10-17T10:41:18Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Fraud Detection Using Optimized Machine Learning Tools Under Imbalance
Classes [0.304585143845864]
機械学習(ML)ツールのスマートバージョンによる不正検出は、安全性を保証するために不可欠である。
本稿では,4つの最先端ML手法,すなわちロジスティック回帰,決定木,ランダム森林,極端な勾配上昇について検討する。
フィッシングサイトURLとクレジットカード不正取引データセットは、元のデータに基づいてトレーニングされた極端な勾配が、信頼できるパフォーマンスを示していることを示している。
論文 参考訳(メタデータ) (2022-09-04T15:30:23Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。