論文の概要: robROSE: A robust approach for dealing with imbalanced data in fraud
detection
- arxiv url: http://arxiv.org/abs/2003.11915v1
- Date: Sun, 22 Mar 2020 16:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:24:33.621397
- Title: robROSE: A robust approach for dealing with imbalanced data in fraud
detection
- Title(参考訳): robROSE:不正検出における不均衡データ処理のための堅牢なアプローチ
- Authors: Bart Baesens, Sebastiaan H\"oppner, Irene Ortner, and Tim Verdonck
- Abstract要約: 不正を検知しようとする際の大きな課題は、不正行為が少数派を形成し、データセットのごく一部を占めることだ。
我々はロロースと呼ばれるROSEの頑健なバージョンを提案し、これは不均衡なデータに同時に対処するいくつかの有望なアプローチを組み合わせたものである。
- 参考スコア(独自算出の注目度): 2.1734195143282697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge when trying to detect fraud is that the fraudulent
activities form a minority class which make up a very small proportion of the
data set. In most data sets, fraud occurs in typically less than 0.5% of the
cases. Detecting fraud in such a highly imbalanced data set typically leads to
predictions that favor the majority group, causing fraud to remain undetected.
We discuss some popular oversampling techniques that solve the problem of
imbalanced data by creating synthetic samples that mimic the minority class. A
frequent problem when analyzing real data is the presence of anomalies or
outliers. When such atypical observations are present in the data, most
oversampling techniques are prone to create synthetic samples that distort the
detection algorithm and spoil the resulting analysis. A useful tool for anomaly
detection is robust statistics, which aims to find the outliers by first
fitting the majority of the data and then flagging data observations that
deviate from it. In this paper, we present a robust version of ROSE, called
robROSE, which combines several promising approaches to cope simultaneously
with the problem of imbalanced data and the presence of outliers. The proposed
method achieves to enhance the presence of the fraud cases while ignoring
anomalies. The good performance of our new sampling technique is illustrated on
simulated and real data sets and it is shown that robROSE can provide better
insight in the structure of the data. The source code of the robROSE algorithm
is made freely available.
- Abstract(参考訳): 不正を検知しようとする際の大きな課題は、不正行為が少数派を形成し、データセットのごく一部を占めることだ。
ほとんどのデータセットでは、詐欺は通常0.5%未満のケースで発生する。
このような高度に不均衡なデータセットで不正を検出することは、通常、多数派を支持する予測につながる。
マイノリティクラスを模倣する合成サンプルを作成することにより、不均衡なデータの問題を解決するための一般的なオーバーサンプリング手法について論じる。
実データを分析する際の頻繁な問題は、異常や外れ値の存在である。
このような非定型的な観測がデータに存在している場合、オーバーサンプリング技術のほとんどは、検出アルゴリズムを歪め、結果の分析を損なう合成サンプルを作成する傾向がある。
異常検出のための便利なツールはロバスト統計であり、データの大部分を最初に適合させ、そこから逸脱したデータ観測をフラグ付けすることで、外れ値を見つけることを目的としている。
本稿では,不均衡データ問題と異常値の存在を同時に扱うためのいくつかの有望なアプローチを組み合わせた,roblosと呼ばれるロバストなバージョンのroseを提案する。
提案手法は,異常を無視しながら不正事例の存在感を高める。
新しいサンプリング手法の優れた性能は,シミュレーションおよび実データ集合上に示され,roblos がデータ構造についてのより良い洞察を提供することが示された。
robROSEアルゴリズムのソースコードは無料で公開されている。
関連論文リスト
- Research on Dynamic Data Flow Anomaly Detection based on Machine Learning [11.526496773281938]
本研究では,非教師なし学習法を用いて動的データフローの異常を同定する。
類似したデータをクラスタリングすることで、ラベル付きデータを必要とせずに、通常のトラフィックから著しく逸脱するデータ挙動を検出することができる。
特に、不均衡なデータのコンテキストにおいて、堅牢で適応可能なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-09-23T08:19:15Z) - Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。
我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models [0.0]
ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。
本稿では,データセット内の重要な情報を特定するシーケンシャルな選択法を提案する。
これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Efficient remedies for outlier detection with variational autoencoders [8.80692072928023]
深層生成モデルによって計算される類似度は、ラベルなしデータによる外れ値検出の候補メトリックである。
理論的に定位された補正は、VAE推定値による鍵バイアスを容易に改善することを示す。
また,VAEのアンサンブル上で計算される確率の分散により,ロバストな外乱検出が可能となることを示す。
論文 参考訳(メタデータ) (2021-08-19T16:00:58Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - A Novel Resampling Technique for Imbalanced Dataset Optimization [1.0323063834827415]
まれなイベントの分類は、詐欺取引、マルウェアトラフィック分析、ネットワーク侵入検出など、多くのドメインで一般的な問題です。
我々は,クラス不均衡問題に対処する2種類の1-Nearest Neighbour (G1Nos)オーバーサンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-30T17:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。