論文の概要: Flow Matching for Tabular Data Synthesis
- arxiv url: http://arxiv.org/abs/2512.00698v1
- Date: Sun, 30 Nov 2025 02:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.36704
- Title: Flow Matching for Tabular Data Synthesis
- Title(参考訳): 語彙データ合成のためのフローマッチング
- Authors: Bahrul Ilmi Nasution, Floor Eijkelboom, Mark Elliot, Richard Allmendinger, Christian A. Naesseth,
- Abstract要約: フローマッチングは、プライバシを保存するデータ共有のための重要なツールである。
本稿では,流れのマッチングを最先端拡散法と比較する。
フローマッチング、特にTabbyFlowは拡散ベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 6.009900118732673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation is an important tool for privacy-preserving data sharing. While diffusion models have set recent benchmarks, flow matching (FM) offers a promising alternative. This paper presents different ways to implement flow matching for tabular data synthesis. We provide a comprehensive empirical study that compares flow matching (FM and variational FM) with a state-of-the-art diffusion method (TabDDPM and TabSyn) in tabular data synthesis. We evaluate both the standard Optimal Transport (OT) and the Variance Preserving (VP) probability paths, and also compare deterministic and stochastic samplers -- something possible when learning to generate using \textit{variational} flow matching -- characterising the empirical relationship between data utility and privacy risk. Our key findings reveal that flow matching, particularly TabbyFlow, outperforms diffusion baselines. Flow matching methods also achieves better performance with remarkably low function evaluations ($\leq$ 100 steps), offering a substantial computational advantage. The choice of probability path is also crucial, as using the OT path demonstrates superior performance, while VP has potential for producing synthetic data with lower disclosure risk. Lastly, our results show that making flows stochastic not only preserves marginal distributions but, in some instances, enables the generation of high utility synthetic data with reduced disclosure risk.
- Abstract(参考訳): 合成データ生成は、プライバシを保存するデータ共有にとって重要なツールである。
拡散モデルは最近のベンチマークをセットしているが、フローマッチング(FM)は有望な代替手段を提供する。
本稿では,グラフデータ合成のためのフローマッチングの実装方法について述べる。
グラフデータ合成における流れマッチング(FMと変動FM)と最先端拡散法(TabDDPMとTabSyn)を比較した総合的な実験的検討を行った。
我々は、標準の最適輸送(OT)と可変保存(VP)の確率パスを評価し、決定論的および確率的なサンプルラーを比較し、データユーティリティとプライバシリスクの実証的な関係を特徴付ける。
我々の重要な発見は、フローマッチング、特にTabbyFlowが拡散ベースラインを上回っていることを示している。
フローマッチング手法は、非常に低い関数評価(100ステップ)で性能も向上し、かなりの計算上の優位性を提供する。
OTパスの使用は優れた性能を示すのに対して、VPは開示リスクの低い合成データを生成する可能性があるため、確率パスの選択も重要である。
最後に, この結果から, フローの確率的生成は限界分布を保存できるだけでなく, 情報開示リスクを低減した高ユーティリティ合成データの生成を可能にすることが示唆された。
関連論文リスト
- Exponential Family Variational Flow Matching for Tabular Data Generation [10.161936647987517]
本研究では,表データ生成のための変分フローマッチング(VFM)手法であるTabbyFlowを開発した。
異種データ型を表すEF-VFM(Exponential Family Variational Flow Matching)を提案する。
また,Bregmanの発散に基づく変動流整合と一般化流整合の関連性を確立する。
論文 参考訳(メタデータ) (2025-06-06T10:07:48Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。
対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。
本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-12T06:08:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。