論文の概要: FDB: Fraud Dataset Benchmark
- arxiv url: http://arxiv.org/abs/2208.14417v1
- Date: Tue, 30 Aug 2022 17:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:51:51.076430
- Title: FDB: Fraud Dataset Benchmark
- Title(参考訳): FDB: 不正データセットベンチマーク
- Authors: Prince Grover, Zheng Li, Jianbo Liu, Jakub Zablocki, Hao Zhou, Julia
Xu and Anqi Cheng
- Abstract要約: フラッドデータセットベンチマーク(Fraud dataset benchmark、FDB)は、不正検出に特化した公開データセットのコンパイルである。
FDBは、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションへのローンのリスクの予測など、さまざまな不正関連タスクで構成されている。
FDBのPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫性のあるAPIを提供する。
- 参考スコア(独自算出の注目度): 17.47360172889688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standardized datasets and benchmarks have spurred innovations in computer
vision, natural language processing, multi-modal and tabular settings. We note
that, as compared to other well researched fields fraud detection has numerous
differences. The differences include a high class imbalance, diverse feature
types, frequently changing fraud patterns, and adversarial nature of the
problem. Due to these differences, the modeling approaches that are designed
for other classification tasks may not work well for the fraud detection. We
introduce Fraud Dataset Benchmark (FDB), a compilation of publicly available
datasets catered to fraud detection. FDB comprises variety of fraud related
tasks, ranging from identifying fraudulent card-not-present transactions,
detecting bot attacks, classifying malicious URLs, predicting risk of loan to
content moderation. The Python based library from FDB provides consistent API
for data loading with standardized training and testing splits. For reference,
we also provide baseline evaluations of different modeling approaches on FDB.
Considering the increasing popularity of Automated Machine Learning (AutoML)
for various research and business problems, we used AutoML frameworks for our
baseline evaluations. For fraud prevention, the organizations that operate with
limited resources and lack ML expertise often hire a team of investigators, use
blocklists and manual rules, all of which are inefficient and do not scale
well. Such organizations can benefit from AutoML solutions that are easy to
deploy in production and pass the bar of fraud prevention requirements. We hope
that FDB helps in the development of customized fraud detection techniques
catered to different fraud modus operandi (MOs) as well as in the improvement
of AutoML systems that can work well for all datasets in the benchmark.
- Abstract(参考訳): 標準化されたデータセットとベンチマークは、コンピュータビジョン、自然言語処理、マルチモーダルおよび表の設定の革新を刺激している。
他のよく研究されているフィールドと比較して、不正検出には多くの違いがある。
違いは、高いレベルの不均衡、多様な特徴タイプ、頻繁な不正パターンの変更、問題の敵対的性質などである。
これらの違いにより、他の分類タスク用に設計されたモデリングアプローチは、不正検出にはうまくいかない可能性がある。
FDB(Fraud Dataset Benchmark)は,不正検出を目的とした公開データセットのコンパイルである。
fdbは詐欺行為に関連する様々なタスクを含み、詐欺的なカード不正取引の特定、ボット攻撃の検出、悪意のあるurlの分類、コンテンツモデレーションへのローンのリスクの予測などを含む。
fdbのpythonベースのライブラリは、標準化されたトレーニングとテスト分割によるデータローディングのための一貫したapiを提供する。
参考までに、FDB上の異なるモデリングアプローチのベースライン評価も提供する。
さまざまな研究やビジネス上の問題に対するAutomated Machine Learning(AutoML)の人気が高まっていることを踏まえ、ベースライン評価にAutoMLフレームワークを使用しました。
不正防止のためには、限られたリソースとMLの専門知識が欠如している組織は、しばしば調査員のチームを雇い、ブロックリストと手動のルールを使う。
このような組織は、本番環境にデプロイしやすく、不正防止の要件を満たすAutoMLソリューションの恩恵を受けることができる。
我々は、fdbが、異なる詐欺モードであるoperandi(mos)に対応したカスタマイズされた不正検出技術の開発と、ベンチマークのすべてのデータセットでうまく機能するautomlシステムの改善に役立つことを望んでいる。
関連論文リスト
- Transaction Fraud Detection via an Adaptive Graph Neural Network [64.9428588496749]
本稿では,アダプティブサンプリングとアグリゲーションに基づくグラフニューラルネットワーク(ASA-GNN)を提案する。
ノイズの多いノードをフィルタリングし、不正なノードを補うために、隣のサンプリング戦略を実行する。
3つのファイナンシャルデータセットの実験により,提案手法のASA-GNNは最先端のデータセットよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-11T07:48:39Z) - Credit Card Fraud Detection Using Enhanced Random Forest Classifier for
Imbalanced Data [0.8223798883838329]
本稿では,この問題を解決するためにランダムフォレスト(RF)アルゴリズムを実装した。
本研究ではクレジットカード取引のデータセットを用いた。
論文 参考訳(メタデータ) (2023-03-11T22:59:37Z) - Weakly Supervised Anomaly Detection: A Survey [75.26180038443462]
異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。
弱教師付き異常検出法(WSAD)の総合的な調査を行った。
各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
論文 参考訳(メタデータ) (2023-02-09T10:27:21Z) - Unlearnable Clusters: Towards Label-agnostic Unlearnable Examples [128.25509832644025]
インターネット上の視覚的プライバシー漏洩に対して、未学習の例(UE)を開発することへの関心が高まっている。
UEは、目に見えないが学習不可能なノイズを付加したトレーニングサンプルであり、機械学習モデルの不正なトレーニングを防ぐことができる。
本稿では,無学習クラスタ (UC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-31T04:26:25Z) - Empirical study of Machine Learning Classifier Evaluation Metrics
behavior in Massively Imbalanced and Noisy data [0.0]
我々は、実世界の不正検出データセットに典型的な人間のアノテーションエラーと極端な不均衡をモデル化するための理論的基盤を開発する。
我々は、F1スコアとg平均の組み合わせが、典型的な不均衡不正検出モデル分類における最良の評価指標であることを実証した。
論文 参考訳(メタデータ) (2022-08-25T07:30:31Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - Challenges and Complexities in Machine Learning based Credit Card Fraud
Detection [0.0]
取引量、詐欺の独自性、詐欺師の巧妙さは詐欺を検知する上で大きな課題である。
機械学習、人工知能、ビッグデータの出現は、詐欺と戦うための新しいツールを公開した。
しかし,不正検出アルゴリズムの開発は,不正データの極めて不均衡な性質のため,困難で遅かった。
論文 参考訳(メタデータ) (2022-08-20T07:53:51Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - A Continual Deepfake Detection Benchmark: Dataset, Methods, and
Essentials [97.69553832500547]
本稿では, 既知の生成モデルと未知の生成モデルの両方から, 新たなディープフェイク集合に対する連続的なディープフェイク検出ベンチマーク(CDDB)を提案する。
本研究では,連続的なディープラーニング検出問題に対して,連続的な視覚認識で一般的に使用される多クラス漸進学習手法を適応するために,複数のアプローチを利用する。
論文 参考訳(メタデータ) (2022-05-11T13:07:19Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Applying support vector data description for fraud detection [0.0]
不正検出の主な課題の1つは、複雑で困難な作業である不正サンプルの取得である。
この課題に対処するために,SVDDのような不正サンプルを必要としない一級分類法を適用した。
また,DBSCANの拡張であるREDBSCANを提案する。
論文 参考訳(メタデータ) (2020-05-31T21:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。