論文の概要: Fraud Dataset Benchmark and Applications
- arxiv url: http://arxiv.org/abs/2208.14417v3
- Date: Fri, 22 Sep 2023 14:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:55:43.068261
- Title: Fraud Dataset Benchmark and Applications
- Title(参考訳): 不正データセットベンチマークとその応用
- Authors: Prince Grover, Julia Xu, Justin Tittelfitz, Anqi Cheng, Zheng Li,
Jakub Zablocki, Jianbo Liu, Hao Zhou
- Abstract要約: Fraud dataset Benchmark(FDB)は、不正検出に特化した公開データセットのコンパイルである。
FDBには、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションに対するローンのデフォルトリスクの推定など、さまざまな不正関連タスクが含まれている。
FDB用のPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫したAPIを提供する。
- 参考スコア(独自算出の注目度): 25.184342958800293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standardized datasets and benchmarks have spurred innovations in computer
vision, natural language processing, multi-modal and tabular settings. We note
that, as compared to other well researched fields, fraud detection has unique
challenges: high-class imbalance, diverse feature types, frequently changing
fraud patterns, and adversarial nature of the problem. Due to these, the
modeling approaches evaluated on datasets from other research fields may not
work well for the fraud detection. In this paper, we introduce Fraud Dataset
Benchmark (FDB), a compilation of publicly available datasets catered to fraud
detection FDB comprises variety of fraud related tasks, ranging from
identifying fraudulent card-not-present transactions, detecting bot attacks,
classifying malicious URLs, estimating risk of loan default to content
moderation. The Python based library for FDB provides a consistent API for data
loading with standardized training and testing splits. We demonstrate several
applications of FDB that are of broad interest for fraud detection, including
feature engineering, comparison of supervised learning algorithms, label noise
removal, class-imbalance treatment and semi-supervised learning. We hope that
FDB provides a common playground for researchers and practitioners in the fraud
detection domain to develop robust and customized machine learning techniques
targeting various fraud use cases.
- Abstract(参考訳): 標準化されたデータセットとベンチマークは、コンピュータビジョン、自然言語処理、マルチモーダルおよび表の設定の革新を刺激している。
他のよく研究された分野と比較して、不正検出には、高いレベルの不均衡、多様な特徴型、頻繁な不正パターンの変更、問題の敵対的性質といった、ユニークな課題がある。
このため、他の研究分野のデータセットで評価されたモデリングアプローチは、不正検出には適さない可能性がある。
本稿では,不正なカード非表示トランザクションの識別,ボット攻撃の検出,悪意のあるURLの分類,コンテンツモデレーションに対するローンのデフォルトのリスク推定など,さまざまな不正関連タスクを含む,不正検出用の公開データセットのコンパイルであるFraud Dataset Benchmark(FDB)を紹介する。
pythonベースのfdbライブラリは、標準化されたトレーニングとテスト分割によるデータローディングのための一貫したapiを提供する。
本稿では,fdbの特徴工学,教師付き学習アルゴリズムの比較,ラベルノイズ除去,クラス不均衡処理,半教師付き学習など,不正検出の幅広い応用例を示す。
FDBは、不正検出領域の研究者や実践者が、さまざまな不正ユースケースをターゲットにした堅牢でカスタマイズされた機械学習技術を開発するための共通の場になることを願っている。
関連論文リスト
- Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Transaction Fraud Detection via an Adaptive Graph Neural Network [64.9428588496749]
本稿では,アダプティブサンプリングとアグリゲーションに基づくグラフニューラルネットワーク(ASA-GNN)を提案する。
ノイズの多いノードをフィルタリングし、不正なノードを補うために、隣のサンプリング戦略を実行する。
3つのファイナンシャルデータセットの実験により,提案手法のASA-GNNは最先端のデータセットよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-11T07:48:39Z) - Credit Card Fraud Detection Using Enhanced Random Forest Classifier for
Imbalanced Data [0.8223798883838329]
本稿では,この問題を解決するためにランダムフォレスト(RF)アルゴリズムを実装した。
本研究ではクレジットカード取引のデータセットを用いた。
論文 参考訳(メタデータ) (2023-03-11T22:59:37Z) - Weakly Supervised Anomaly Detection: A Survey [75.26180038443462]
異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。
弱教師付き異常検出法(WSAD)の総合的な調査を行った。
各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
論文 参考訳(メタデータ) (2023-02-09T10:27:21Z) - Empirical study of Machine Learning Classifier Evaluation Metrics
behavior in Massively Imbalanced and Noisy data [0.0]
我々は、実世界の不正検出データセットに典型的な人間のアノテーションエラーと極端な不均衡をモデル化するための理論的基盤を開発する。
我々は、F1スコアとg平均の組み合わせが、典型的な不均衡不正検出モデル分類における最良の評価指標であることを実証した。
論文 参考訳(メタデータ) (2022-08-25T07:30:31Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - Challenges and Complexities in Machine Learning based Credit Card Fraud
Detection [0.0]
取引量、詐欺の独自性、詐欺師の巧妙さは詐欺を検知する上で大きな課題である。
機械学習、人工知能、ビッグデータの出現は、詐欺と戦うための新しいツールを公開した。
しかし,不正検出アルゴリズムの開発は,不正データの極めて不均衡な性質のため,困難で遅かった。
論文 参考訳(メタデータ) (2022-08-20T07:53:51Z) - A Continual Deepfake Detection Benchmark: Dataset, Methods, and
Essentials [97.69553832500547]
本稿では, 既知の生成モデルと未知の生成モデルの両方から, 新たなディープフェイク集合に対する連続的なディープフェイク検出ベンチマーク(CDDB)を提案する。
本研究では,連続的なディープラーニング検出問題に対して,連続的な視覚認識で一般的に使用される多クラス漸進学習手法を適応するために,複数のアプローチを利用する。
論文 参考訳(メタデータ) (2022-05-11T13:07:19Z) - Applying support vector data description for fraud detection [0.0]
不正検出の主な課題の1つは、複雑で困難な作業である不正サンプルの取得である。
この課題に対処するために,SVDDのような不正サンプルを必要としない一級分類法を適用した。
また,DBSCANの拡張であるREDBSCANを提案する。
論文 参考訳(メタデータ) (2020-05-31T21:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。