論文の概要: Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals
- arxiv url: http://arxiv.org/abs/2604.13125v1
- Date: Mon, 13 Apr 2026 19:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.215655
- Title: Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals
- Title(参考訳): 行動フラッドパターンの保存に失敗する合成語彙発生器:時間・速度・マルチアカウント信号のベンチマーク
- Authors: Bhavana Sajja,
- Abstract要約: 本研究では,4つの行動不正パターン(P1-P4)の分類法を定式化し,事象間タイミング,バースト構造,マルチアカウントグラフモチーフ,速度ルールトリガ率について検討した。
我々は、IEEE-CIS Fraud DetectionとAmazon FraudデータセットでCTGAN、TVAE、GaussianCopula、TabularARGNをベンチマークした。
P1-P4フレームワークは、医療やネットワークセキュリティを含む、エンティティレベルのシーケンシャルデータを持つ任意のドメインに拡張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce behavioral fidelity -- a third evaluation dimension for synthetic tabular data that measures whether generated data preserves the temporal, sequential, and structural behavioral patterns that distinguish real-world entity activity. Existing frameworks evaluate statistical fidelity (marginal distributions and correlations) and downstream utility (classifier AUROC on synthetic-trained models), but neither tests for the behavioral signals that operational detection and analysis systems actually rely on. We formalize a taxonomy of four behavioral fraud patterns (P1-P4) covering inter-event timing, burst structure, multi-account graph motifs, and velocity-rule trigger rates; define a degradation ratio metric calibrated to a real-data noise floor (1.0 = matches real variability, k = k-times worse); and prove that row-independent generators -- the dominant paradigm -- are structurally incapable of reproducing P3 graph motifs (Proposition 1) and produce non-positive within-entity IET autocorrelation (Proposition 2), making the positive burst fingerprint of fraud sequences unachievable regardless of architecture or training data size. We benchmark CTGAN, TVAE, GaussianCopula, and TabularARGN on IEEE-CIS Fraud Detection and the Amazon Fraud Dataset. All four fail severely: on IEEE-CIS composite degradation ratios range from 24.4x (TVAE) to 39.0x (GaussianCopula); on Amazon FDB, row-independent generators score 81.6-99.7x, while TabularARGN achieves 17.2x. We document generator-specific failure modes and their resolutions. The P1-P4 framework extends to any domain with entity-level sequential tabular data, including healthcare and network security. We release our evaluation framework as open source.
- Abstract(参考訳): 実世界の実体活動を区別する時間的、シーケンシャル、構造的行動パターンを、生成したデータが保持するかどうかを測定する。
既存のフレームワークは、統計的忠実度(海面分布と相関)と下流ユーティリティ(合成訓練モデルに基づく分類AUROC)を評価するが、実際には運用検出と分析システムが依存する行動信号の試験は行われない。
我々は,4つの行動不正パターン(P1-P4)の分類法を定式化し,時間間時間,バースト構造,マルチアカウントグラフモチーフ,ベロシティ・ルールトリガー率について定式化し,実データノイズフロアに校正された劣化比の基準(1.0 = 実変動率,k = k-times)を定義した。
我々は、IEEE-CIS Fraud DetectionとAmazon Fraud DatasetでCTGAN、TVAE、GaussianCopula、TabularARGNをベンチマークした。
IEEE-CIS複合劣化比は24.4x(TVAE)から39.0x(GaussianCopula)、Amazon FDBでは行非依存のジェネレータが81.6-99.7x、TabularARGNは17.2xである。
ジェネレータ固有の障害モードとその解決方法を文書化する。
P1-P4フレームワークは、医療やネットワークセキュリティを含む、エンティティレベルのシーケンシャルなテーブルデータを持つ任意のドメインに拡張する。
評価フレームワークをオープンソースとしてリリースしています。
関連論文リスト
- OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Insider Threat Detection Using GCN and Bi-LSTM with Explicit and Implicit Graph Representations [3.294619412118624]
インサイダー脅威検出(ITD)は,信頼されたユーザによる悪意ある行為の微妙で隠された性質のため,課題である。
本稿では,明示的かつ暗黙的なグラフ表現と時間的モデリングを統合し,複雑なユーザ行動パターンをキャプチャするポストホックITDフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T19:48:35Z) - From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models [81.43473418572567]
CTR(Click-Through Rate)予測は、レコメンデーションシステムにおける中核的なタスクである。
本稿では,埋め込み次元の崩壊と情報冗長性に対処する新しい生成フレームワークを提案する。
SFGは埋没崩壊を緩和し,情報冗長性を低減し,性能向上を図っている。
論文 参考訳(メタデータ) (2025-12-16T03:17:18Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - An Information-Theoretic Framework for Credit Risk Modeling: Unifying Industry Practice with Statistical Theory for Fair and Interpretable Scorecards [1.4824891788575416]
IVは、同一のビン上での善と悪のクレジット結果とで計算されたPSIと完全に等しいことを示す。
我々は、クレジットモデリング固有のパフォーマンス・フェアネストレードオフを、IVの予測パワーを最大化しつつ、IVの保護属性を最小化するものとして定式化する。
この枠組みは理論と実践を橋渡しし、広く使用されている信用リスク指標の厳密な統計基盤を提供する。
論文 参考訳(メタデータ) (2025-09-11T21:05:34Z) - User-Based Sequential Modeling with Transformer Encoders for Insider Threat Detection [0.005755004576310333]
インサイダー脅威検出は、悪意のあるアクターの認定状態のために、ユニークな課題を提示する。
既存の機械学習メソッドは、ユーザアクティビティを独立したイベントとして扱うため、ユーザの振る舞いにおけるシーケンシャルな依存関係を活用できない。
本稿では,ユーザベースシーケンス法(UBS)手法を提案し,CERTインサイダー脅威データセットを深い逐次モデリングに適した構造化時間列に変換する。
論文 参考訳(メタデータ) (2025-06-30T00:47:31Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。