論文の概要: Tide: A Customisable Dataset Generator for Anti-Money Laundering Research
- arxiv url: http://arxiv.org/abs/2603.01863v1
- Date: Mon, 02 Mar 2026 13:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.893131
- Title: Tide: A Customisable Dataset Generator for Anti-Money Laundering Research
- Title(参考訳): Tide: アンチモニー洗浄研究用のカスタムデータセットジェネレータ
- Authors: Montijn van den Beukel, Jože Martin Rožanec, Ana-Lucia Varbanescu,
- Abstract要約: 我々は、オープンソースの合成データセットジェネレータであるTideを紹介する。
マネーロンダリングパターンを取り入れたグラフベースの金融ネットワークを創出する。
Tideは、特定の研究ニーズに合わせて再現可能な、カスタマイズ可能なデータセット生成を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of accessible transactional data significantly hinders machine learning research for Anti-Money Laundering (AML). Privacy and legal concerns prevent the sharing of real financial data, while existing synthetic generators focus on simplistic structural patterns and neglect the temporal dynamics (timing and frequency) that characterise sophisticated laundering schemes. We present Tide, an open-source synthetic dataset generator that produces graph-based financial networks incorporating money laundering patterns defined by both structural and temporal characteristics. Tide enables reproducible, customisable dataset generation tailored to specific research needs. We release two reference datasets with varying illicit ratios (LI: 0.10\%, HI: 0.19\%), alongside the implementation of state-of-the-art detection models. Evaluation across these datasets reveals condition-dependent model rankings: LightGBM achieves the highest PR-AUC (78.05) in the low illicit ratio condition, while XGBoost performs best (85.12) at higher fraud prevalence. These divergent rankings demonstrate that the reference datasets can meaningfully differentiate model capabilities across operational conditions. Tide provides the research community with a configurable benchmark that exposes meaningful performance variation across model architectures, advancing the development of robust AML detection methods.
- Abstract(参考訳): アクセス可能なトランザクションデータの欠如は、Anti-Money Laundering (AML)の機械学習研究を著しく妨げている。
プライバシと法的懸念は、実際の財務データの共有を妨げる一方で、既存の合成ジェネレータは、単純化された構造パターンに注目し、洗練された洗浄スキームを特徴づける時間的ダイナミクス(タイミングと周波数)を無視している。
我々は、構造的および時間的特性の両方で定義されたマネーロンダリングパターンを取り入れたグラフベースの金融ネットワークを生成する、オープンソースの合成データセット生成装置であるTideを提案する。
Tideは、特定の研究ニーズに合わせて再現可能な、カスタマイズ可能なデータセット生成を可能にする。
我々は、最先端検出モデルの実装とともに、様々な不正比(LI: 0.10\%, HI: 0.19\%)の2つの参照データセットをリリースする。
LightGBMは低照度比条件で最も高いPR-AUC(78.05)を達成し、XGBoostは高い詐欺率で最高の85.12(英語版)を達成している。
これらの異なるランキングは、参照データセットが運用条件間でモデル能力を有意義に区別できることを示している。
Tideは、モデルアーキテクチャ間で有意義なパフォーマンス変化を公開し、堅牢なAML検出方法の開発を進める、構成可能なベンチマークを研究コミュニティに提供する。
関連論文リスト
- Synthetic Financial Data Generation for Enhanced Financial Modelling [0.0]
本稿では,合成財務データのための統合型マルチ基準評価フレームワークを提案する。
過去のSとP500の日次データを用いて、下流タスクにおける忠実度(最大平均離散性、MD)、時間構造(自己相関とボラティリティクラスタリング)、実用性を評価する。
アプリケーションのニーズや計算制約に応じて生成モデルを選択するための実践的ガイドラインを明確に述べる。
論文 参考訳(メタデータ) (2025-12-25T21:43:16Z) - Dynamic Evaluation for Oversensitivity in LLMs [68.27609301865174]
過敏性は、言語モデルが実際に良性であるプロンプトを防衛的に拒否するときに起こる。
この振る舞いはユーザインタラクションを妨害するだけでなく、有害なコンテンツと無害なコンテンツの境界を曖昧にする。
既存のベンチマークは、モデルの発展に伴ってオーバータイムを低下させる静的データセットに依存している。
論文 参考訳(メタデータ) (2025-10-21T18:33:47Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - MPOCryptoML: Multi-Pattern based Off-Chain Crypto Money Laundering Detection [2.2530496464901106]
本稿では,暗号通貨取引における複数のマネーロンダリングパターンを効果的に検出するMPOCryptoMLを提案する。
MPOCryptoMLは、ランダムな洗浄パターンを識別するマルチソースパーソナライズされたPageRankアルゴリズムの開発を含む。
一貫性のあるパフォーマンス向上を示し、精度が9.13%、リコールが10.16%、F1スコアが7.63%、精度が10.19%まで向上した。
論文 参考訳(メタデータ) (2025-08-18T06:06:32Z) - Evaluating Privacy-Utility Tradeoffs in Synthetic Smart Grid Data [9.927400227483428]
4つの合成データ生成手法の比較評価を行った。
我々は,分類ユーティリティ,流通忠実度,プライバシリークを評価した。
これらの知見は、プライバシ保護、データ駆動型エネルギーシステムを開発するための構造化生成モデルの可能性を強調している。
論文 参考訳(メタデータ) (2025-05-20T10:46:29Z) - CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Realistic Synthetic Financial Transactions for Anti-Money Laundering
Models [2.3802629107286046]
マネーロンダリング(英: Money laundering)とは、不正な資金が彼らの起源を隠蔽する動きである。
国連の推計では、世界のGDPの2-5%、すなわち0.8ドルから2.0兆ドルは毎年世界規模で洗浄されている。
本稿では、合成金融トランザクションデータセット生成器と合成生成されたAMLデータセットのセットに貢献する。
論文 参考訳(メタデータ) (2023-06-22T10:32:51Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。