論文の概要: Realistic Synthetic Financial Transactions for Anti-Money Laundering
Models
- arxiv url: http://arxiv.org/abs/2306.16424v3
- Date: Thu, 25 Jan 2024 11:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:12:32.797455
- Title: Realistic Synthetic Financial Transactions for Anti-Money Laundering
Models
- Title(参考訳): 反マネーロンダリングモデルのためのリアルな合成金融取引
- Authors: Erik Altman, Jovan Blanu\v{s}a, Luc von Niederh\"ausern, B\'eni
Egressy, Andreea Anghel, Kubilay Atasu
- Abstract要約: マネーロンダリング(英: Money laundering)とは、不正な資金が彼らの起源を隠蔽する動きである。
国連の推計では、世界のGDPの2-5%、すなわち0.8ドルから2.0兆ドルは毎年世界規模で洗浄されている。
本稿では、合成金融トランザクションデータセット生成器と合成生成されたAMLデータセットのセットに貢献する。
- 参考スコア(独自算出の注目度): 2.3802629107286046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread digitization of finance and the increasing popularity of
cryptocurrencies, the sophistication of fraud schemes devised by cybercriminals
is growing. Money laundering -- the movement of illicit funds to conceal their
origins -- can cross bank and national boundaries, producing complex
transaction patterns. The UN estimates 2-5\% of global GDP or \$0.8 - \$2.0
trillion dollars are laundered globally each year. Unfortunately, real data to
train machine learning models to detect laundering is generally not available,
and previous synthetic data generators have had significant shortcomings. A
realistic, standardized, publicly-available benchmark is needed for comparing
models and for the advancement of the area.
To this end, this paper contributes a synthetic financial transaction dataset
generator and a set of synthetically generated AML (Anti-Money Laundering)
datasets. We have calibrated this agent-based generator to match real
transactions as closely as possible and made the datasets public. We describe
the generator in detail and demonstrate how the datasets generated can help
compare different machine learning models in terms of their AML abilities. In a
key way, using synthetic data in these comparisons can be even better than
using real data: the ground truth labels are complete, whilst many laundering
transactions in real data are never detected.
- Abstract(参考訳): 金融のデジタル化や暗号通貨の普及に伴い、サイバー犯罪者が考案した詐欺スキームの高度化が進んでいる。
マネーロンダリング(資金洗浄)は銀行と国の境界を越えて複雑な取引パターンを生み出す可能性がある。
国連の推計では、世界のGDPの2-5\%、すなわち0.8ドル=2.0兆ドルが毎年洗浄されている。
残念なことに、洗浄を検出するために機械学習モデルをトレーニングする実際のデータは一般的には利用できない。
現実的で標準化された公開可能なベンチマークは、モデルの比較と領域の進歩のために必要である。
そこで本研究では,合成金融トランザクションデータセット生成と合成生成されたAML(Anti-Money Laundering)データセットのセットについて述べる。
このエージェントベースのジェネレータをキャリブレーションして、実際のトランザクションを可能な限り密に一致させ、データセットを公開しました。
生成元を詳細に記述し、生成したデータセットが、AML能力の観点から異なる機械学習モデルを比較するのにどう役立つかを実証する。
重要な方法では、これらの比較で合成データを使用することは、実際のデータを使用するよりもさらによい。
関連論文リスト
- Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - How Realistic Is Your Synthetic Data? Constraining Deep Generative
Models for Tabular Data [57.97035325253996]
本稿では,制約付き深部生成モデル(C-DGM)をリアルな合成データモデルに変換する方法について述べる。
C-DGMは、制約によって表現される背景知識を活用して、標準知識より優れている。
論文 参考訳(メタデータ) (2024-02-07T13:22:05Z) - Towards a Foundation Purchasing Model: Pretrained Generative
Autoregression on Transaction Sequences [0.0]
本稿では,金融取引の文脈的埋め込みを得るための生成事前学習手法を提案する。
さらに,510億の取引を含む180の発行銀行のデータコーパスを用いて,埋め込みモデルの大規模事前学習を行う。
論文 参考訳(メタデータ) (2024-01-03T09:32:48Z) - FinDiff: Diffusion Models for Financial Tabular Data Generation [5.824064631226058]
FinDiffは、さまざまな規制下流タスクのための現実世界の財務データを生成するために設計された拡散モデルである。
3つの実世界の財務データセットを用いて、最先端のベースラインモデルに対して評価される。
論文 参考訳(メタデータ) (2023-09-04T09:30:15Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Synthetic Demographic Data Generation for Card Fraud Detection Using
GANs [4.651915393462367]
我々は、人口統計データ生成に使用されるDGGANと呼ばれるディープラーニングジェネレーティブ・アドバイサル・ネットワーク(GAN)を構築している。
本モデルでは,モデルトレーニング中にサンプルを生成し,クラス不均衡問題を克服することの重要性を見出した。
論文 参考訳(メタデータ) (2023-06-29T17:08:57Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Mechanisms that Incentivize Data Sharing in Federated Learning [90.74337749137432]
我々は、データ共有の利点が完全に損なわれているような、ナイーブなスキームが破滅的なフリーライディングのレベルにどのように結びつくかを示す。
次に,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。
論文 参考訳(メタデータ) (2022-07-10T22:36:52Z) - Anti-Money Laundering Alert Optimization Using Machine Learning with
Graphs [0.769672852567215]
マネーロンダリング(英: Money laundering)は、重大通貨からの収益(毎年1.7-4兆ユーロ)の合法化に関する世界的な問題である。
本稿では,ルールベースシステムを補完し,警告のリスクを正確に予測する機械学習トリアージモデルを提案する。
実世界の銀行のデータセット上で、我々のモデルを検証し、トリアージモデルが真正の90%以上を検出しながら、偽正の数を80%削減できることを示す。
論文 参考訳(メタデータ) (2021-12-14T16:12:30Z) - Generating synthetic transactional profiles [0.0]
本稿では,機械学習技術を用いて,合成トランザクショナルプロファイルを生成する。
筆者らは,銀行業界が原データと合成データの両方で用いている共通洞察を計算し,データの有用性を測定した。
論文 参考訳(メタデータ) (2021-10-28T18:52:04Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。