論文の概要: Fraud Detection Using Optimized Machine Learning Tools Under Imbalance
Classes
- arxiv url: http://arxiv.org/abs/2209.01642v1
- Date: Sun, 4 Sep 2022 15:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:30:29.977068
- Title: Fraud Detection Using Optimized Machine Learning Tools Under Imbalance
Classes
- Title(参考訳): 不均衡クラスにおける最適機械学習ツールを用いたフラッド検出
- Authors: Mary Isangediok, Kelum Gajamannage
- Abstract要約: 機械学習(ML)ツールのスマートバージョンによる不正検出は、安全性を保証するために不可欠である。
本稿では,4つの最先端ML手法,すなわちロジスティック回帰,決定木,ランダム森林,極端な勾配上昇について検討する。
フィッシングサイトURLとクレジットカード不正取引データセットは、元のデータに基づいてトレーニングされた極端な勾配が、信頼できるパフォーマンスを示していることを示している。
- 参考スコア(独自算出の注目度): 0.304585143845864
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fraud detection is a challenging task due to the changing nature of fraud
patterns over time and the limited availability of fraud examples to learn such
sophisticated patterns. Thus, fraud detection with the aid of smart versions of
machine learning (ML) tools is essential to assure safety. Fraud detection is a
primary ML classification task; however, the optimum performance of the
corresponding ML tool relies on the usage of the best hyperparameter values.
Moreover, classification under imbalanced classes is quite challenging as it
causes poor performance in minority classes, which most ML classification
techniques ignore. Thus, we investigate four state-of-the-art ML techniques,
namely, logistic regression, decision trees, random forest, and extreme
gradient boost, that are suitable for handling imbalance classes to maximize
precision and simultaneously reduce false positives. First, these classifiers
are trained on two original benchmark unbalanced fraud detection datasets,
namely, phishing website URLs and fraudulent credit card transactions. Then,
three synthetically balanced datasets are produced for each original data set
by implementing the sampling frameworks, namely, RandomUnderSampler, SMOTE, and
SMOTEENN. The optimum hyperparameters for all the 16 experiments are revealed
using the method RandomzedSearchCV. The validity of the 16 approaches in the
context of fraud detection is compared using two benchmark performance metrics,
namely, area under the curve of receiver operating characteristics (AUC ROC)
and area under the curve of precision and recall (AUC PR). For both phishing
website URLs and credit card fraud transaction datasets, the results indicate
that extreme gradient boost trained on the original data shows trustworthy
performance in the imbalanced dataset and manages to outperform the other three
methods in terms of both AUC ROC and AUC PR.
- Abstract(参考訳): 不正検出は、時間とともに詐欺パターンの性質が変化し、そのような洗練されたパターンを学ぶための詐欺例が限られているため、難しい課題である。
したがって、機械学習(ML)ツールのスマートバージョンによる不正検出は、安全性を確保するために不可欠である。
フラッド検出は主要なML分類タスクであるが、対応するMLツールの最適性能は、最適なハイパーパラメータ値の使用に依存する。
さらに、非バランスなクラスによる分類は、ほとんどのML分類手法が無視するマイノリティクラスにおける性能の低下を引き起こすため、非常に困難である。
そこで本研究では,非バランスなクラスを処理して精度を最大化し,偽陽性を同時に低減する,ロジスティック回帰,決定木,ランダム森林,極端な勾配向上の4つの最先端ML手法について検討する。
まず、これらの分類器は、2つの不正検出データセット、すなわちフィッシングウェブサイトURLと不正クレジットカードトランザクションに基づいてトレーニングされる。
次に、サンプリングフレームワーク、すなわちRandomUnderSampler、SMOTE、SMOTEENNを実装することで、元のデータセット毎に3つの合成バランスデータセットを生成する。
全16実験に対する最適ハイパーパラメータはRandomzedSearchCV法を用いて明らかにした。
不正検出の文脈における16のアプローチの有効性を、受信操作特性曲線(AUC ROC)の領域と、精度とリコール曲線(AUC PR)の2つのベンチマークパフォーマンス指標を用いて比較する。
フィッシングWebサイトのURLとクレジットカード詐欺トランザクションデータセットの両方について、元のデータでトレーニングされた極端なグラデーションは、不均衡なデータセットで信頼できるパフォーマンスを示し、AUC ROCとAUC PRの両方で他の3つのメソッドよりも優れていることを示している。
関連論文リスト
- Malicious URL Detection using optimized Hist Gradient Boosting Classifier based on grid search method [0.0]
悪意のあるウェブサイトが不正な理由で情報を収集する可能性があるため、オンラインプラットフォームで入力されたデータの正確さを信頼することは困難である。
悪意のあるWebサイトが引き起こすリスクを検出するために,機械学習(ML)ベースの手法を用いることを提案する。
使用されるデータセットには、悪意のあるWebサイトデータの1781のレコードと13の機能が含まれている。
論文 参考訳(メタデータ) (2024-06-12T11:16:30Z) - Securing Transactions: A Hybrid Dependable Ensemble Machine Learning
Model using IHT-LR and Grid Search [2.4374097382908477]
本稿では,複数のアルゴリズムをインテリジェントに組み合わせて不正識別を強化する,最先端のハイブリッドアンサンブル(ENS)機械学習(ML)モデルを提案する。
実験は,284,807件の取引からなる公開クレジットカードデータセットを用いて実施した。
提案したモデルは、99.66%、99.73%、98.56%、99.79%の精度で、それぞれDT、RF、KNN、ENSモデルに完全100%の精度を実現している。
論文 参考訳(メタデータ) (2024-02-22T09:01:42Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Performance evaluation of Machine learning algorithms for Intrusion Detection System [0.40964539027092917]
本稿では機械学習(ML)技術を用いた侵入検知システム(IDS)の解析に焦点を当てた。
機械学習モデルのトレーニングと検証に使用されるKDD CUP-'99'侵入検出データセットを分析した。
論文 参考訳(メタデータ) (2023-10-01T06:35:37Z) - Credit Card Fraud Detection Using Enhanced Random Forest Classifier for
Imbalanced Data [0.8223798883838329]
本稿では,この問題を解決するためにランダムフォレスト(RF)アルゴリズムを実装した。
本研究ではクレジットカード取引のデータセットを用いた。
論文 参考訳(メタデータ) (2023-03-11T22:59:37Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - A Symmetric Loss Perspective of Reliable Machine Learning [87.68601212686086]
平衡誤差率 (BER) の最小化において, 対称損失が破損ラベルからのロバストな分類をいかに生み出すかを検討する。
我々は、関連するキーワードからのみ学習したい問題において、AUC手法が自然言語処理にどのように役立つかを実証する。
論文 参考訳(メタデータ) (2021-01-05T06:25:47Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Provable tradeoffs in adversarially robust classification [96.48180210364893]
我々は、ロバストなイソペリメトリに関する確率論の最近のブレークスルーを含む、新しいツールを開発し、活用する。
この結果から,データの不均衡時に増加する標準精度とロバスト精度の基本的なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2020-06-09T09:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。