論文の概要: EmDT: Embedding Diffusion Transformer for Tabular Data Generation in Fraud Detection
- arxiv url: http://arxiv.org/abs/2603.13566v1
- Date: Fri, 13 Mar 2026 20:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.277147
- Title: EmDT: Embedding Diffusion Transformer for Tabular Data Generation in Fraud Detection
- Title(参考訳): EmDT: フラッド検出における語彙データ生成のための埋め込み拡散変換器
- Authors: En-Ya Kuo, Sebastien Motsch,
- Abstract要約: EmDTは不正サンプルを生成するために設計された拡散モデルである。
UMAPクラスタリングを利用して、異なる不正パターンを識別する。
次に、正弦波位置埋め込みを用いたTransformer denoising Networkを訓練し、特徴関係を捉える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced datasets pose a difficulty in fraud detection, as classifiers are often biased toward the majority class and perform poorly on rare fraudulent transactions. Synthetic data generation is therefore commonly used to mitigate this problem. In this work, we propose the Clustered Embedding Diffusion-Transformer (EmDT), a diffusion model designed to generate fraudulent samples. Our key innovation is to leverage UMAP clustering to identify distinct fraudulent patterns, and train a Transformer denoising network with sinusoidal positional embeddings to capture feature relationships throughout the diffusion process. Once the synthetic data has been generated, we employ a standard decision-tree-based classifier (e.g., XGBoost) for classification, as this type of model remains better suited to tabular datasets. Experiments on a credit card fraud detection dataset demonstrate that EmDT significantly improves downstream classification performance compared to existing oversampling and generative methods, while maintaining comparable privacy protection and preserving feature correlations present in the original data.
- Abstract(参考訳): 不均衡データセットは不正検出の難しさを招き、分類器は多数派に偏りがあり、希少な不正取引では不十分である。
したがって、この問題を緩和するために合成データ生成が一般的に使用される。
本研究では,不正なサンプルを生成するための拡散モデルであるClustered Embedding Diffusion-Transformer (EmDT)を提案する。
我々の重要な革新は、UMAPクラスタリングを活用して、異なる不正パターンを識別し、Transformer denoising Networkを正弦波位置埋め込みで訓練し、拡散過程を通して特徴的関係を捉えることである。
合成データが生成されると、標準的な決定木ベースの分類器(例えば、XGBoost)を分類に使用します。
クレジットカード不正検出データセットの実験では、EmDTは既存のオーバーサンプリングや生成手法と比較して、下流分類性能を著しく向上する一方で、プライバシ保護と元のデータに存在する特徴相関を維持する。
関連論文リスト
- Diffusion-Driven Synthetic Tabular Data Generation for Enhanced DoS/DDoS Attack Classification [0.0]
Tabular Denoising Diffusion Probability Models (TabDDPM) を用いたネットワーク侵入検出におけるクラス不均衡
提案手法は, CIC-IDS 2017データセットからの高忠実度マイノリティクラスサンプルを反復的復調法により合成する。
サンプルが小さいマイノリティクラスでは、合成サンプルが生成され、元のデータセットとマージされた。
論文 参考訳(メタデータ) (2026-01-19T16:22:27Z) - Generative Classifiers Avoid Shortcut Solutions [84.23247217037134]
分類に対する差別的なアプローチは、しばしば、分配されるが、小さな分布シフトの下で失敗するショートカットを学習する。
生成型分類器は、主にスパイラルな特徴ではなく、コアとスパイラルの両方の全ての特徴をモデル化することでこの問題を回避することができることを示す。
拡散型および自己回帰型生成型分類器は,5つの標準画像およびテキスト分散シフトベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Improving Credit Card Fraud Detection through Transformer-Enhanced GAN Oversampling [0.0]
我々は,Transformerエンコーダブロックを備えたGAN(Generative Adversarial Network)を用いて,現実的な不正取引サンプルを生成する。
GANアーキテクチャは現実的なジェネレータの訓練を可能にし、Transformerはモデルが自己注意によってリッチな機能インタラクションを学習することを可能にする。
論文 参考訳(メタデータ) (2025-09-23T14:05:13Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection [9.784793380119806]
データ拡張のためのトレーニング不要な拡散型In-Distribution Anomaly GenerationパイプラインであるDIAGを紹介する。
従来の画像生成技術とは異なり、我々は、ドメインの専門家がモデルにマルチモーダルガイダンスを提供する、Human-in-the-loopパイプラインを実装している。
我々は、挑戦的なKSDD2データセットに対する最先端データ拡張アプローチに関して、DIAGの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-04T14:28:52Z) - Diffusion Recommender Model [85.9640416600725]
そこで我々は,DiffRecと呼ばれる新しい拡散レコメンダモデルを提案し,その生成過程を認知的に学習する。
ユーザインタラクションにおけるパーソナライズされた情報を維持するため、DiffRecは追加のノイズを低減し、画像合成のような純粋なノイズに対するユーザのインタラクションを損なうことを避ける。
論文 参考訳(メタデータ) (2023-04-11T04:31:00Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。