論文の概要: Improving TabPFN's Synthetic Data Generation by Integrating Causal Structure
- arxiv url: http://arxiv.org/abs/2603.10254v1
- Date: Tue, 10 Mar 2026 22:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.709572
- Title: Improving TabPFN's Synthetic Data Generation by Integrating Causal Structure
- Title(参考訳): 因果構造の統合によるTabPFNの合成データ生成の改善
- Authors: Davide Tugnoli, Andrea De Lorenzo, Marco Virgolin, Giovanni Cinà,
- Abstract要約: 合成データ生成はデータの不足とプライバシ制約に対処する。
生成プロセスに因果構造を組み込む方法を示す。
制御されたベンチマークと6つのCSuiteデータセットに対して,これらのアプローチを評価する。
- 参考スコア(独自算出の注目度): 1.3357838668308473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic tabular data generation addresses data scarcity and privacy constraints in a variety of domains. Tabular Prior-Data Fitted Network (TabPFN), a recent foundation model for tabular data, has been shown capable of generating high-quality synthetic tabular data. However, TabPFN is autoregressive: features are generated sequentially by conditioning on the previous ones, depending on the order in which they appear in the input data. We demonstrate that when the feature order conflicts with causal structure, the model produces spurious correlations that impair its ability to generate synthetic data and preserve causal effects. We address this limitation by integrating causal structure into TabPFN's generation process through two complementary approaches: Directed Acyclic Graph (DAG)-aware conditioning, which samples each variable given its causal parents, and a Completed Partially Directed Acyclic Graph (CPDAG)-based strategy for scenarios with partial causal knowledge. We evaluate these approaches on controlled benchmarks and six CSuite datasets, assessing structural fidelity, distributional alignment, privacy preservation, and Average Treatment Effect (ATE) preservation. Across most settings, DAG-aware conditioning improves the quality and stability of synthetic data relative to vanilla TabPFN. The CPDAG-based strategy shows moderate improvements, with effectiveness depending on the number of oriented edges. These results indicate that injecting causal structure into autoregressive generation enhances the reliability of synthetic tabular data.
- Abstract(参考訳): 合成表データ生成は、さまざまなドメインにおけるデータの不足とプライバシ制約に対処する。
グラフデータの基本モデルであるTabular Prior-Data Fitted Network (TabPFN)は,高品質な合成表データを生成することができる。
しかし、TabPFNは自己回帰的であり、入力データに現れる順序に応じて、前の値に条件付けすることで、機能を順次生成する。
本研究では,特徴秩序が因果構造と矛盾する場合,そのモデルが合成データの生成や因果効果の維持を損なうような突発的な相関を生じさせることを示した。
本研究では,TabPFN の生成過程に因果構造を組み込むことにより,因果親に与えられた各変数をサンプリングする有向非巡回グラフ (DAG) と,部分的因果知識を持つシナリオに対する完全部分的非巡回グラフ (CPDAG) に基づく戦略の2つの相補的アプローチにより,この制限に対処する。
制御されたベンチマークと6つのCSuiteデータセットに対するこれらのアプローチを評価し、構造的忠実度、分布的アライメント、プライバシー保護、平均処理効果(ATE)の保存を評価した。
ほとんどの設定において、DAG対応コンディショニングは、バニラTabPFNに対する合成データの品質と安定性を改善する。
CPDAGベースの戦略は、指向するエッジの数に応じて有効性を示しながら、適度な改善を示している。
これらの結果から, 自己回帰生成に因果構造を注入することで, 合成表データの信頼性が向上することが示唆された。
関連論文リスト
- RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。