論文の概要: Hybrid Data can Enhance the Utility of Synthetic Data for Training Anti-Money Laundering Models
- arxiv url: http://arxiv.org/abs/2509.18499v1
- Date: Tue, 23 Sep 2025 01:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.627563
- Title: Hybrid Data can Enhance the Utility of Synthetic Data for Training Anti-Money Laundering Models
- Title(参考訳): ハイブリッドデータは、アンチモニー洗浄モデルのトレーニングのための合成データの有用性を高めることができる
- Authors: Rachel Chung, Pratyush Nidhi Sharma, Mikko Siponen, Rohit Vadodaria, Luke Smith,
- Abstract要約: このようなモデルを開発する上で大きな問題は、プライバシと機密性の懸念によるトレーニングデータへのアクセスの欠如である。
本稿では,人工データセットの実用性を高めるためにハイブリッドデータセットの利用を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Money laundering is a critical global issue for financial institutions. Automated Anti-money laundering (AML) models, like Graph Neural Networks (GNN), can be trained to identify illicit transactions in real time. A major issue for developing such models is the lack of access to training data due to privacy and confidentiality concerns. Synthetically generated data that mimics the statistical properties of real data but preserves privacy and confidentiality has been proposed as a solution. However, training AML models on purely synthetic datasets presents its own set of challenges. This article proposes the use of hybrid datasets to augment the utility of synthetic datasets by incorporating publicly available, easily accessible, and real-world features. These additions demonstrate that hybrid datasets not only preserve privacy but also improve model utility, offering a practical pathway for financial institutions to enhance AML systems.
- Abstract(参考訳): マネーロンダリングは金融機関にとって重要な世界的な問題である。
Graph Neural Networks (GNN)のような自動アンチマネーロンダリング(AML)モデルは、不正なトランザクションをリアルタイムで識別するためにトレーニングすることができる。
このようなモデルを開発する上で大きな問題は、プライバシと機密性の懸念によるトレーニングデータへのアクセスの欠如である。
実際のデータの統計特性を模倣するが、プライバシと機密性を保護したデータを合成的に生成する手法が提案されている。
しかし、純粋に合成データセット上でAMLモデルをトレーニングすることは、独自の課題のセットを示す。
本稿では,人工データセットの実用性を高めるためにハイブリッドデータセットの利用を提案する。
これらの追加は、ハイブリッドデータセットがプライバシを保存するだけでなく、モデルユーティリティを改善し、金融機関がAMLシステムを強化する実践的な経路を提供することを示している。
関連論文リスト
- Generative Models for Synthetic Data: Transforming Data Mining in the GenAI Era [49.46005489386284]
このチュートリアルでは、合成データ生成の基礎と最新の進歩を紹介する。
Atendeesは、生成的合成データを活用してデータマイニングの研究と実践を強化する、実用的な洞察を得る。
論文 参考訳(メタデータ) (2025-08-27T05:04:07Z) - PuckTrick: A Library for Making Synthetic Data More Realistic [46.198289193451146]
Pucktrickは、制御エラーを導入して、合成データセットを体系的に汚染するように設計されたPythonライブラリである。
系統的なデータ汚染がモデル性能に与える影響を評価する。
その結果、汚染された合成データに基づいて訓練されたMLモデルは、純粋に合成されたエラーのないデータで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-06-23T10:51:45Z) - The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、敵がLarge Language Models(LLMs)によって生成された合成データにアクセス可能であると仮定する。
我々は、データ合成に使用されるLPMを微調整するために使用されるトレーニングデータをターゲットに、メンバーシップ推論攻撃(MIA)を設計する。
モデルに基づくMIAのために作られたカナリアは、合成データのみを公開する場合、プライバシー監査のサブ最適化であることがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Realistic Synthetic Financial Transactions for Anti-Money Laundering
Models [2.3802629107286046]
マネーロンダリング(英: Money laundering)とは、不正な資金が彼らの起源を隠蔽する動きである。
国連の推計では、世界のGDPの2-5%、すなわち0.8ドルから2.0兆ドルは毎年世界規模で洗浄されている。
本稿では、合成金融トランザクションデータセット生成器と合成生成されたAMLデータセットのセットに貢献する。
論文 参考訳(メタデータ) (2023-06-22T10:32:51Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。