論文の概要: Empirical study of Machine Learning Classifier Evaluation Metrics
behavior in Massively Imbalanced and Noisy data
- arxiv url: http://arxiv.org/abs/2208.11904v1
- Date: Thu, 25 Aug 2022 07:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 14:00:44.186544
- Title: Empirical study of Machine Learning Classifier Evaluation Metrics
behavior in Massively Imbalanced and Noisy data
- Title(参考訳): 大規模不均衡・雑音データにおける機械学習分類器評価指標の検討
- Authors: Gayan K. Kulatilleke, Sugandika Samarakoon
- Abstract要約: 我々は、実世界の不正検出データセットに典型的な人間のアノテーションエラーと極端な不均衡をモデル化するための理論的基盤を開発する。
我々は、F1スコアとg平均の組み合わせが、典型的な不均衡不正検出モデル分類における最良の評価指標であることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With growing credit card transaction volumes, the fraud percentages are also
rising, including overhead costs for institutions to combat and compensate
victims. The use of machine learning into the financial sector permits more
effective protection against fraud and other economic crime. Suitably trained
machine learning classifiers help proactive fraud detection, improving
stakeholder trust and robustness against illicit transactions. However, the
design of machine learning based fraud detection algorithms has been
challenging and slow due the massively unbalanced nature of fraud data and the
challenges of identifying the frauds accurately and completely to create a gold
standard ground truth. Furthermore, there are no benchmarks or standard
classifier evaluation metrics to measure and identify better performing
classifiers, thus keeping researchers in the dark.
In this work, we develop a theoretical foundation to model human annotation
errors and extreme imbalance typical in real world fraud detection data sets.
By conducting empirical experiments on a hypothetical classifier, with a
synthetic data distribution approximated to a popular real world credit card
fraud data set, we simulate human annotation errors and extreme imbalance to
observe the behavior of popular machine learning classifier evaluation
matrices. We demonstrate that a combined F1 score and g-mean, in that specific
order, is the best evaluation metric for typical imbalanced fraud detection
model classification.
- Abstract(参考訳): クレジットカードの取引量の増加に伴い、被害者と戦って補償する機関のオーバーヘッドコストなど、不正率も上昇している。
金融セクターにおける機械学習の使用は、詐欺やその他の経済犯罪に対するより効果的な保護を可能にする。
適切に訓練された機械学習分類器は、積極的に不正検出し、株主信頼と不正取引に対する堅牢性を向上させる。
しかし,機械学習に基づく不正検出アルゴリズムの設計は,不正データの極めて不均衡な性質と,不正を正確にかつ完全に識別することによる金本位制の真理の創出が困難で遅かった。
さらに、パフォーマンスのよい分類器を計測し識別するためのベンチマークや標準分類器評価指標は存在せず、研究者を暗く保ちます。
本研究では,実世界の不正検出データセットに典型的な人間のアノテーションエラーと極端な不均衡をモデル化するための理論的基盤を開発する。
一般的な現実世界のクレジットカード詐欺データセットに近似した合成データ分布を用いて仮想的分類器実験を行い,人間のアノテーションエラーと極端な不均衡をシミュレートし,一般的な機械学習分類器評価行列の挙動を観察する。
本稿では,f1スコアとg-meanの組み合わせが,典型的な不正検出モデル分類の最適評価指標であることを実証する。
関連論文リスト
- Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Explainable Fraud Detection with Deep Symbolic Classification [4.1205832766381985]
分類問題に対するDeep Symbolic Regressionフレームワークの拡張であるDeep Classificationを提案する。
関数は閉形式で簡潔な数学的表現であるため、モデルは1つの分類決定のレベルとモデルの決定過程の両方において本質的に説明可能である。
PaySimデータセットの評価は、最先端のモデルと競合する予測性能を示しながら、説明可能性の観点からそれらを上回っている。
論文 参考訳(メタデータ) (2023-12-01T13:50:55Z) - Credit Card Fraud Detection with Subspace Learning-based One-Class
Classification [18.094622095967328]
1クラス分類(OCC)アルゴリズムは、不均衡なデータ分散を扱うのに優れている。
これらのアルゴリズムは、部分空間学習をデータ記述に統合する。
これらのアルゴリズムは、OCCに最適化された低次元の部分空間にデータを変換する。
論文 参考訳(メタデータ) (2023-09-26T12:26:28Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Transaction Fraud Detection via an Adaptive Graph Neural Network [64.9428588496749]
本稿では,アダプティブサンプリングとアグリゲーションに基づくグラフニューラルネットワーク(ASA-GNN)を提案する。
ノイズの多いノードをフィルタリングし、不正なノードを補うために、隣のサンプリング戦略を実行する。
3つのファイナンシャルデータセットの実験により,提案手法のASA-GNNは最先端のデータセットよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-11T07:48:39Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - Challenges and Complexities in Machine Learning based Credit Card Fraud
Detection [0.0]
取引量、詐欺の独自性、詐欺師の巧妙さは詐欺を検知する上で大きな課題である。
機械学習、人工知能、ビッグデータの出現は、詐欺と戦うための新しいツールを公開した。
しかし,不正検出アルゴリズムの開発は,不正データの極めて不均衡な性質のため,困難で遅かった。
論文 参考訳(メタデータ) (2022-08-20T07:53:51Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - GAN based Data Augmentation to Resolve Class Imbalance [0.0]
多くの関連するタスクにおいて、データセットは非常に少数の不正事件が観察される。
この不均衡の存在は、すべてのラベルを大多数のクラスとして予測することで、学習モデルの振舞いに影響を与える可能性がある。
我々はGAN(Generative Adversarial Network)を訓練し、少数民族の説得力のある(かつ信頼性の高い)合成例を多数生成した。
論文 参考訳(メタデータ) (2022-06-12T21:21:55Z) - Fairness in Semi-supervised Learning: Unlabeled Data Help to Reduce
Discrimination [53.3082498402884]
機械学習の台頭における投機は、機械学習モデルによる決定が公正かどうかである。
本稿では,未ラベルデータのラベルを予測するための擬似ラベリングを含む,前処理フェーズにおける公平な半教師付き学習の枠組みを提案する。
偏見、分散、ノイズの理論的分解分析は、半教師付き学習における差別の異なる源とそれらが公平性に与える影響を浮き彫りにする。
論文 参考訳(メタデータ) (2020-09-25T05:48:56Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。