論文の概要: Anti-Money Laundering Machine Learning Pipelines; A Technical Analysis on Identifying High-risk Bank Clients with Supervised Learning
- arxiv url: http://arxiv.org/abs/2509.09127v1
- Date: Thu, 11 Sep 2025 03:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.217863
- Title: Anti-Money Laundering Machine Learning Pipelines; A Technical Analysis on Identifying High-risk Bank Clients with Supervised Learning
- Title(参考訳): アンチモニー洗浄機械学習パイプライン : 教師付き学習によるリスクの高い銀行顧客を特定する技術分析
- Authors: Khashayar Namdar, Pin-Chien Wang, Tushar Raju, Steven Zheng, Fiona Li, Safwat Tahmin Khan,
- Abstract要約: リスクの高い銀行クライアントを特定するために,機械学習パイプラインを開発するための包括的かつ体系的なアプローチを提案する。
データセットには195,789のIDが含まれており、16ステップの顧客設計と統計分析を採用しました。
パイプラインの動作特性曲線 (AUROC) は0.961であり, 標準偏差 (SD) は0.005であった。
- 参考スコア(独自算出の注目度): 1.149137041907724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anti-money laundering (AML) actions and measurements are among the priorities of financial institutions, for which machine learning (ML) has shown to have a high potential. In this paper, we propose a comprehensive and systematic approach for developing ML pipelines to identify high-risk bank clients in a dataset curated for Task 1 of the University of Toronto 2023-2024 Institute for Management and Innovation (IMI) Big Data and Artificial Intelligence Competition. The dataset included 195,789 customer IDs, and we employed a 16-step design and statistical analysis to ensure the final pipeline was robust. We also framed the data in a SQLite database, developed SQL-based feature engineering algorithms, connected our pre-trained model to the database, and made it inference-ready, and provided explainable artificial intelligence (XAI) modules to derive feature importance. Our pipeline achieved a mean area under the receiver operating characteristic curve (AUROC) of 0.961 with a standard deviation (SD) of 0.005. The proposed pipeline achieved second place in the competition.
- Abstract(参考訳): 反マネーロンダリング(AML)の行動と測定は金融機関の優先事項であり、機械学習(ML)には高い可能性があることが示されている。
本稿では,トロント大学2023-2024 ビッグデータ・人工知能コンペティション (IMI) のタスク1 でキュレートされたデータセットにおいて,リスクの高い銀行クライアントを識別するMLパイプラインを開発するための総合的かつ体系的なアプローチを提案する。
データセットには195,789の顧客IDが含まれており、最終パイプラインが堅牢であることを保証するため、16ステップの設計と統計分析を採用しました。
また、データをSQLiteデータベースにフレーム化し、SQLベースの機能エンジニアリングアルゴリズムを開発し、事前訓練されたモデルをデータベースに接続し、推論対応にし、特徴の重要性を導き出すための説明可能な人工知能(XAI)モジュールを提供した。
パイプラインの動作特性曲線 (AUROC) は0.961であり, 標準偏差 (SD) は0.005であった。
提案されたパイプラインは大会で2位に終わった。
関連論文リスト
- FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [92.7392863957204]
FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。
リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。
推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
論文 参考訳(メタデータ) (2025-08-16T08:54:08Z) - FinAI-BERT: A Transformer-Based Model for Sentence-Level Detection of AI Disclosures in Financial Reports [6.324803752309524]
本研究では,FinAI-BERTについて紹介する。FinAI-BERTはドメイン適応トランスフォーマーに基づく言語モデルで,文レベルでのAI関連コンテンツを財務テキストに分類する。
このモデルは、米国の銀行の年間報告669件から抽出された1,586文の、手動でキュレートされバランスの取れたデータセットに基づいて微調整された。
論文 参考訳(メタデータ) (2025-06-29T09:33:29Z) - AI for Climate Finance: Agentic Retrieval and Multi-Step Reasoning for Early Warning System Investments [1.3192560874022086]
本研究は、気候リスク・早期警戒システム(CREWS)ファンドにおけるEWS投資の追跡という現実的な応用に焦点を当てる。
我々は25のMDBプロジェクト文書を分析し、ゼロショット学習や少数ショット学習を含む複数のAI駆動型分類手法を評価する。
以上の結果より, エージェントベースRAGアプローチは, 87%の精度, 89%の精度, 83%のリコールを達成し, 他の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-07T14:11:11Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Creation and Evaluation of a Food Product Image Dataset for Product Property Extraction [39.58317527488534]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2024-11-15T21:29:05Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - A machine learning workflow to address credit default prediction [0.44943951389724796]
信用デフォルト予測(CDP)は個人や企業の信用力を評価する上で重要な役割を果たす。
CDPを改善するためのワークフローベースのアプローチを提案する。これは、借り手が信用義務を負う確率を評価するタスクを指す。
論文 参考訳(メタデータ) (2024-03-06T15:30:41Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。