論文の概要: TabSCM: A practical Framework for Generating Realistic Tabular Data
- arxiv url: http://arxiv.org/abs/2604.22337v1
- Date: Fri, 24 Apr 2026 08:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.39693
- Title: TabSCM: A practical Framework for Generating Realistic Tabular Data
- Title(参考訳): TabSCM: リアルなタブラリデータを生成するための実践的なフレームワーク
- Authors: Sven Jacob, Bardh Prenkaj, Weijia Shao, Gjergji Kasneci,
- Abstract要約: 因果依存性を保存する混合型ジェネレータであるTabSCMを提案する。
7つの公開データセットでは、TabSCMは最先端のGAN、拡散、LLMベースラインを統計的忠実度で一致または超えている。
生成は明示的な方程式に分解されるので、拡散のみのモデルよりも583$times$高速に実行される。
- 参考スコア(独自算出の注目度): 22.41489215805826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most tabular-data generators match marginal statistics yet ignore causal structure, leading downstream models to learn spurious or unfair patterns. We present TabSCM, a mixed-type generator that preserves those causal dependencies. Starting from a Completed Partially Directed Acyclic Graph (CPDAG) found by any causal structure discovery algorithm, TabSCM (i) orients edges to a DAG, (ii) fits root-node marginals with KDE or categorical frequencies, and (iii) learns topologically ordered structural assignments. Such assignments are achieved using conditional diffusion models for continuous variables as child nodes and gradient-boosted trees for categorical ones. Ancestral sampling yields semantically valid records and enables exact counterfactual queries. On seven public datasets, encompassing healthcare, finance, housing, environment, TabSCM matches or surpasses state-of-the-art GAN, diffusion, and LLM baselines in statistical fidelity, downstream utility, and privacy risk, while also cutting rule-violation rates and providing causally meaningful and robust conditional interventions. Because generation is decomposed into explicit equations, it runs up to 583$\times$ faster than diffusion-only models and exposes interpretable knobs for fairness auditing and policy simulation, making TabSCM a practical choice for realism, explainability, and causal soundness.
- Abstract(参考訳): 表データジェネレータの多くは、まだ因果構造を無視していない限界統計値に一致し、下流のモデルが素早いパターンや不公平なパターンを学習する。
本稿では、これらの因果依存性を保存する混合型ジェネレータTabSCMを提案する。
因果構造探索アルゴリズムTabSCMで発見された完全部分方向非巡回グラフ(CPDAG)から始める
i) エッジをDAGに配向する
(二)KDE又はカテゴリー周波数に根端辺縁を適合させ、
(iii) トポロジカルに順序付けられた構造課題を学習する。
このような代入は、子ノードとしての連続変数の条件拡散モデルと、カテゴリー変数の勾配木を用いて達成される。
アセストラルサンプリングは意味論的に有効なレコードを生成し、正確な反事実クエリを可能にする。
医療、金融、住宅、環境、TabSCMのマッチ、あるいは最先端のGAN、拡散、LCMのベースラインを超える7つのパブリックデータセットでは、統計的忠実さ、下流のユーティリティ、プライバシーリスク、ルール違反率の削減、因果的に有意義で堅牢な条件付き介入を提供する。
生成は明示的な方程式に分解されるため、拡散専用モデルよりも最大583$\times$の速さで実行され、フェアネス監査とポリシーシミュレーションのための解釈可能なノブが露出し、TabSCMは現実主義、説明可能性、因果音性のための実用的な選択肢となる。
関連論文リスト
- TabSHAP [5.3259362673757735]
大規模な言語モデルは、伝統的なツリーベースのモデルに代わる強力な選択肢として現れています。
既存の手法は、しばしば大域的な線形プロキシやスカラー確率シフトに頼り、モデルの完全な確率的不確実性を捉えるのに失敗する。
本稿では,ローカルクエリ決定ロジックを直接属性として設計したモデルに依存しない解釈可能性フレームワークであるTabSHAPを紹介する。
論文 参考訳(メタデータ) (2026-04-22T22:04:45Z) - Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals [0.0]
本研究では,4つの行動不正パターン(P1-P4)の分類法を定式化し,事象間タイミング,バースト構造,マルチアカウントグラフモチーフ,速度ルールトリガ率について検討した。
我々は、IEEE-CIS Fraud DetectionとAmazon FraudデータセットでCTGAN、TVAE、GaussianCopula、TabularARGNをベンチマークした。
P1-P4フレームワークは、医療やネットワークセキュリティを含む、エンティティレベルのシーケンシャルデータを持つ任意のドメインに拡張する。
論文 参考訳(メタデータ) (2026-04-13T19:36:00Z) - A Sobering Look at Tabular Data Generation via Probabilistic Circuits [20.66441498486505]
タブラルデータはテキストや画像よりも生成が難しい。
拡散ベースのモデルは現在の最先端(SotA)モデルクラスである。
ディープ確率回路(PC)は、コストのごく一部でSotAモデルに競争力または優れた性能を提供する。
論文 参考訳(メタデータ) (2026-03-24T10:01:28Z) - DAG DECORation: Continuous Optimization for Structure Learning under Hidden Confounding [0.0]
本研究では, 線形ガウスSEMの構造学習について検討した。
我々は,DAGと相関雑音モデルとを共同で学習する単一の可能性に基づく推定器であるtextscDECORを提案する。
論文 参考訳(メタデータ) (2025-10-02T15:23:30Z) - Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。
我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。
原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文 参考訳(メタデータ) (2025-09-16T17:24:35Z) - Standardizing Structural Causal Models [80.21199731817698]
ベンチマークアルゴリズムのための内部標準構造因果モデル(iSCM)を提案する。
構成上、iSCMは$operatornameVar$-sortableではない。
また、一般的に使用されるグラフ族に対して$operatornameR2$-sortableでないという経験的証拠も見つかる。
論文 参考訳(メタデータ) (2024-06-17T14:52:21Z) - Representation Disentaglement via Regularization by Causal
Identification [3.9160947065896803]
本稿では,不整合表現学習における基礎となるデータ生成過程の仮定を記述するために,因果コライダー構造モデルを提案する。
そこで本研究では,大規模生成モデルの挙動を因果同定によって課される絡み合った制約に整合させるモジュール型正規化エンジンReIを提案する。
論文 参考訳(メタデータ) (2023-02-28T23:18:54Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。