論文の概要: Secure and Explainable Fraud Detection in Finance via Hierarchical Multi-source Dataset Distillation
- arxiv url: http://arxiv.org/abs/2512.21866v1
- Date: Fri, 26 Dec 2025 05:00:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:56:13.489147
- Title: Secure and Explainable Fraud Detection in Finance via Hierarchical Multi-source Dataset Distillation
- Title(参考訳): 階層型マルチソース・データセット蒸留によるファイナンスにおける安全性と説明可能なフラッド検出
- Authors: Yiming Qian, Thorsten Neumann, Xueyining Huang, David Hardoon, Fei Gao, Yong Liu, Siow Mong Rick Goh,
- Abstract要約: 訓練されたランダム森林は、透明で軸方向の規則領域に変換される。
合成トランザクションは、各領域内で一様にサンプリングすることによって生成される。
これにより、コンパクトで監査可能なサロゲートデータセットが生成される。
- 参考スコア(独自算出の注目度): 17.90471000973834
- License:
- Abstract: We propose an explainable, privacy-preserving dataset distillation framework for collaborative financial fraud detection. A trained random forest is converted into transparent, axis-aligned rule regions (leaf hyperrectangles), and synthetic transactions are generated by uniformly sampling within each region. This produces a compact, auditable surrogate dataset that preserves local feature interactions without exposing sensitive original records. The rule regions also support explainability: aggregated rule statistics (for example, support and lift) describe global patterns, while assigning each case to its generating region gives concise human-readable rationales and calibrated uncertainty based on tree-vote disagreement. On the IEEE-CIS fraud dataset (590k transactions across three institution-like clusters), distilled datasets reduce data volume by 85% to 93% (often under 15% of the original) while maintaining competitive precision and micro-F1, with only a modest AUC drop. Sharing and augmenting with synthesized data across institutions improves cross-cluster precision, recall, and AUC. Real vs. synthesized structure remains highly similar (over 93% by nearest-neighbor cosine analysis). Membership-inference attacks perform at chance level (about 0.50) when distinguishing training from hold-out records, suggesting low memorization risk. Removing high-uncertainty synthetic points using disagreement scores further boosts AUC (up to 0.687) and improves calibration. Sensitivity tests show weak dependence on the distillation ratio (AUC about 0.641 to 0.645 from 6% to 60%). Overall, tree-region distillation enables trustworthy, deployable fraud analytics with interpretable global rules, per-case rationales with quantified uncertainty, and strong privacy properties suitable for multi-institution settings and regulatory audit.
- Abstract(参考訳): 本稿では、協調的金融不正検出のための説明可能なプライバシー保護データセット蒸留フレームワークを提案する。
訓練されたランダム森林を透明な軸方向の規則領域(リーフハイパー矩形)に変換し、各領域内で一様にサンプリングすることで合成トランザクションを生成する。
これにより、コンパクトで監査可能なサロゲートデータセットが生成される。
集約されたルール統計(例えば、サポートとリフト)は、グローバルパターンを記述し、各ケースを生成領域に割り当てると、簡潔な人間可読理性を与え、木声の不一致に基づいて不確実性を校正する。
IEEE-CIS詐欺データセット(3つの機関的なクラスタにわたる590万件のトランザクション)では、蒸留データセットは、競争精度とマイクロF1を維持しつつ、データボリュームを85%から93%削減する。
組織間で合成されたデータの共有と拡張により、クラスタ間の精度、リコール、AUCが改善される。
実 vs. 合成構造は、非常によく似ている(最も近いコサイン分析で93%以上)。
メンバーシップ推論攻撃は、ホールドアウト記録とトレーニングを区別する際に、チャンスレベル(約0.50)で実行され、暗記リスクが低いことを示唆している。
不一致スコアを用いた高不確実な合成点の除去はさらにAUC(最大0.687まで)を強化し、校正を改善している。
感度試験は蒸留比に弱い依存性を示す(AUCは約0.641から0.645で6%から60%)。
全体として、ツリー領域の蒸留は、解釈可能なグローバルルールによる信頼性の高いデプロイ可能な不正分析、定量化された不確実性を持つケースごとの合理性、多施設設定と規制監査に適した強力なプライバシー特性を可能にする。
関連論文リスト
- Semantic-Constrained Federated Aggregation: Convergence Theory and Privacy-Utility Bounds for Knowledge-Enhanced Distributed Learning [0.0]
本稿では,ドメイン知識の制約を分散最適化に組み込んだ理論的な基盤を持つフレームワークであるSemantic-Constrained Federated Aggregation(SCFA)を紹介する。
我々は、制約違反率を表す SCFA 収束率 O(1/sqrt(T) + rho) を証明し、制約に基づく連邦学習のための最初の収束理論を確立する。
我々は,Boschの生産データを用いて,118万サンプルと968のセンサ機能を備えた予測保守の枠組みを検証した。
論文 参考訳(メタデータ) (2025-12-12T04:29:29Z) - Natural Geometry of Robust Data Attribution: From Convex Models to Deep Networks [9.553350856191743]
コンベックスモデルからディープネットワークへ拡張するロバスト属性の統一フレームワークを提案する。
凸設定では、検証可能なカバレッジ保証を備えたW-RIF(Wasserstein-Robust Influence Function)を導出する。
ディープネットワークでは、ユークリッド認証がスペクトル増幅によって空白化されることを実証する。
論文 参考訳(メタデータ) (2025-12-09T20:40:27Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - Perfectly-Private Analog Secure Aggregation in Federated Learning [51.61616734974475]
連合学習では、複数のパーティがモデルをローカルにトレーニングし、パラメータを中央サーバと共有する。
本稿では,有限場ではなくトーラスを用いた新しいセキュアパラメータアグリゲーション法を提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:40Z) - GANDiff FR: Hybrid GAN Diffusion Synthesis for Causal Bias Attribution in Face Recognition [0.0]
GANDiff FRは、人口動態や環境要因を正確に制御し、再現可能な厳密さで偏見を計測し、説明し、低減する最初の合成フレームワークである。
我々は5つのコホートにまたがる1万の人種的バランスのとれた顔を、自動検出と人的レビューによって合成する。
一致する操作ポイントの下でArcFace、CosFace、AdaFaceをベンチマークすると、AdaFaceはグループ間のTPR格差を60%削減する。
GANDiff FR は、純粋な GAN と比較して約20%の計算オーバーヘッドがあるにもかかわらず、3倍の属性条件付き変種が得られる。
論文 参考訳(メタデータ) (2025-08-15T09:05:57Z) - Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization [5.414146574747448]
本研究では、信頼できない3DoFのポーズ予測をフィルタリングするパーセンタイルに基づく拒絶戦略を導入する。
実験結果から, より厳密な不確実性しきい値を適用することにより, ポーズ精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-10T12:07:24Z) - Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems [89.35169042718739]
協調推論により、クラウドサーバに機密データを公開することなく、エンドユーザは強力なディープラーニングモデルを活用することができる。
近年の研究では、これらの中間機能は、情報が漏洩し、生データをモデル反転攻撃(MIA)によって再構築できるため、プライバシーを十分に保持できないことが判明している。
この研究はまず、与えられた中間特徴の入力の条件エントロピーが、任意のMIAの下での再構成平均二乗誤差(MSE)の保証された下界を与えることを理論的に証明する。
そして、ガウス混合推定に基づいて、この条件付きエントロピーを有界化するための微分可能かつ可解な尺度を導出し、逆ロバスト性を高める条件付きエントロピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:21Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。