論文の概要: FDB: Fraud Dataset Benchmark
- arxiv url: http://arxiv.org/abs/2208.14417v2
- Date: Wed, 31 Aug 2022 22:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 11:38:14.216748
- Title: FDB: Fraud Dataset Benchmark
- Title(参考訳): FDB: 不正データセットベンチマーク
- Authors: Prince Grover, Zheng Li, Jianbo Liu, Jakub Zablocki, Hao Zhou, Julia
Xu and Anqi Cheng
- Abstract要約: フラッドデータセットベンチマーク(Fraud dataset benchmark、FDB)は、不正検出に特化した公開データセットのコンパイルである。
FDBは、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションへのローンのリスクの予測など、さまざまな不正関連タスクで構成されている。
FDBのPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫性のあるAPIを提供する。
- 参考スコア(独自算出の注目度): 17.47360172889688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standardized datasets and benchmarks have spurred innovations in computer
vision, natural language processing, multi-modal and tabular settings. We note
that, as compared to other well researched fields fraud detection has numerous
differences. The differences include a high class imbalance, diverse feature
types, frequently changing fraud patterns, and adversarial nature of the
problem. Due to these differences, the modeling approaches that are designed
for other classification tasks may not work well for the fraud detection. We
introduce Fraud Dataset Benchmark (FDB), a compilation of publicly available
datasets catered to fraud detection. FDB comprises variety of fraud related
tasks, ranging from identifying fraudulent card-not-present transactions,
detecting bot attacks, classifying malicious URLs, predicting risk of loan to
content moderation. The Python based library from FDB provides consistent API
for data loading with standardized training and testing splits. For reference,
we also provide baseline evaluations of different modeling approaches on FDB.
Considering the increasing popularity of Automated Machine Learning (AutoML)
for various research and business problems, we used AutoML frameworks for our
baseline evaluations. For fraud prevention, the organizations that operate with
limited resources and lack ML expertise often hire a team of investigators, use
blocklists and manual rules, all of which are inefficient and do not scale
well. Such organizations can benefit from AutoML solutions that are easy to
deploy in production and pass the bar of fraud prevention requirements. We hope
that FDB helps in the development of customized fraud detection techniques
catered to different fraud modus operandi (MOs) as well as in the improvement
of AutoML systems that can work well for all datasets in the benchmark.
- Abstract(参考訳): 標準化されたデータセットとベンチマークは、コンピュータビジョン、自然言語処理、マルチモーダルおよび表の設定の革新を刺激している。
他のよく研究されているフィールドと比較して、不正検出には多くの違いがある。
違いは、高いレベルの不均衡、多様な特徴タイプ、頻繁な不正パターンの変更、問題の敵対的性質などである。
これらの違いにより、他の分類タスク用に設計されたモデリングアプローチは、不正検出にはうまくいかない可能性がある。
FDB(Fraud Dataset Benchmark)は,不正検出を目的とした公開データセットのコンパイルである。
fdbは詐欺行為に関連する様々なタスクを含み、詐欺的なカード不正取引の特定、ボット攻撃の検出、悪意のあるurlの分類、コンテンツモデレーションへのローンのリスクの予測などを含む。
fdbのpythonベースのライブラリは、標準化されたトレーニングとテスト分割によるデータローディングのための一貫したapiを提供する。
参考までに、FDB上の異なるモデリングアプローチのベースライン評価も提供する。
さまざまな研究やビジネス上の問題に対するAutomated Machine Learning(AutoML)の人気が高まっていることを踏まえ、ベースライン評価にAutoMLフレームワークを使用しました。
不正防止のためには、限られたリソースとMLの専門知識が欠如している組織は、しばしば調査員のチームを雇い、ブロックリストと手動のルールを使う。
このような組織は、本番環境にデプロイしやすく、不正防止の要件を満たすAutoMLソリューションの恩恵を受けることができる。
我々は、fdbが、異なる詐欺モードであるoperandi(mos)に対応したカスタマイズされた不正検出技術の開発と、ベンチマークのすべてのデータセットでうまく機能するautomlシステムの改善に役立つことを望んでいる。
関連論文リスト
- Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Transaction Fraud Detection via an Adaptive Graph Neural Network [64.9428588496749]
本稿では,アダプティブサンプリングとアグリゲーションに基づくグラフニューラルネットワーク(ASA-GNN)を提案する。
ノイズの多いノードをフィルタリングし、不正なノードを補うために、隣のサンプリング戦略を実行する。
3つのファイナンシャルデータセットの実験により,提案手法のASA-GNNは最先端のデータセットよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-11T07:48:39Z) - Credit Card Fraud Detection Using Enhanced Random Forest Classifier for
Imbalanced Data [0.8223798883838329]
本稿では,この問題を解決するためにランダムフォレスト(RF)アルゴリズムを実装した。
本研究ではクレジットカード取引のデータセットを用いた。
論文 参考訳(メタデータ) (2023-03-11T22:59:37Z) - Weakly Supervised Anomaly Detection: A Survey [75.26180038443462]
異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。
弱教師付き異常検出法(WSAD)の総合的な調査を行った。
各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
論文 参考訳(メタデータ) (2023-02-09T10:27:21Z) - Empirical study of Machine Learning Classifier Evaluation Metrics
behavior in Massively Imbalanced and Noisy data [0.0]
我々は、実世界の不正検出データセットに典型的な人間のアノテーションエラーと極端な不均衡をモデル化するための理論的基盤を開発する。
我々は、F1スコアとg平均の組み合わせが、典型的な不均衡不正検出モデル分類における最良の評価指標であることを実証した。
論文 参考訳(メタデータ) (2022-08-25T07:30:31Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - Challenges and Complexities in Machine Learning based Credit Card Fraud
Detection [0.0]
取引量、詐欺の独自性、詐欺師の巧妙さは詐欺を検知する上で大きな課題である。
機械学習、人工知能、ビッグデータの出現は、詐欺と戦うための新しいツールを公開した。
しかし,不正検出アルゴリズムの開発は,不正データの極めて不均衡な性質のため,困難で遅かった。
論文 参考訳(メタデータ) (2022-08-20T07:53:51Z) - A Continual Deepfake Detection Benchmark: Dataset, Methods, and
Essentials [97.69553832500547]
本稿では, 既知の生成モデルと未知の生成モデルの両方から, 新たなディープフェイク集合に対する連続的なディープフェイク検出ベンチマーク(CDDB)を提案する。
本研究では,連続的なディープラーニング検出問題に対して,連続的な視覚認識で一般的に使用される多クラス漸進学習手法を適応するために,複数のアプローチを利用する。
論文 参考訳(メタデータ) (2022-05-11T13:07:19Z) - Applying support vector data description for fraud detection [0.0]
不正検出の主な課題の1つは、複雑で困難な作業である不正サンプルの取得である。
この課題に対処するために,SVDDのような不正サンプルを必要としない一級分類法を適用した。
また,DBSCANの拡張であるREDBSCANを提案する。
論文 参考訳(メタデータ) (2020-05-31T21:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。