論文の概要: Dependency-aware synthetic tabular data generation
- arxiv url: http://arxiv.org/abs/2507.19211v1
- Date: Fri, 25 Jul 2025 12:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.953364
- Title: Dependency-aware synthetic tabular data generation
- Title(参考訳): 依存関係を考慮した合成表データ生成
- Authors: Chaithra Umesh, Kristian Schultz, Manjunath Mahendra, Saptarshi Bej, Olaf Wolkenhauer,
- Abstract要約: 特に、機能的依存関係(FD)と論理的依存関係(LD)は、しばしば合成データセットにほとんど、あるいはあまり保持されない。
本稿では,FD と LD ルールに基づいて独立な特徴を生成し,依存する特徴を再構成する階層的特徴生成フレームワーク (HFGF) を提案する。
4つのベンチマークデータセットを用いた実験により,HFGFはFDとLDの保存を6つの生成モデルで改善することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic tabular data is increasingly used in privacy-sensitive domains such as health care, but existing generative models often fail to preserve inter-attribute relationships. In particular, functional dependencies (FDs) and logical dependencies (LDs), which capture deterministic and rule-based associations between features, are rarely or often poorly retained in synthetic datasets. To address this research gap, we propose the Hierarchical Feature Generation Framework (HFGF) for synthetic tabular data generation. We created benchmark datasets with known dependencies to evaluate our proposed HFGF. The framework first generates independent features using any standard generative model, and then reconstructs dependent features based on predefined FD and LD rules. Our experiments on four benchmark datasets with varying sizes, feature imbalance, and dependency complexity demonstrate that HFGF improves the preservation of FDs and LDs across six generative models, including CTGAN, TVAE, and GReaT. Our findings demonstrate that HFGF can significantly enhance the structural fidelity and downstream utility of synthetic tabular data.
- Abstract(参考訳): 合成表データは、医療などのプライバシに敏感な領域での利用が増えているが、既存の生成モデルは、属性間の関係を維持するのに失敗することが多い。
特に、機能的依存関係(FDs)と論理的依存関係(LDs)は、特徴間の決定論的および規則に基づく関連をキャプチャするものであり、しばしば合成データセットに保持される。
この研究ギャップに対処するために,合成表データ生成のための階層的特徴生成フレームワーク (HFGF) を提案する。
我々は、提案したHFGFを評価するために、既知の依存関係を持つベンチマークデータセットを作成しました。
フレームワークはまず、任意の標準生成モデルを使用して独立した特徴を生成し、あらかじめ定義されたFDおよびLDルールに基づいて依存する特徴を再構築する。
HFGFはCTGAN, TVAE, GReaTを含む6つの生成モデルでFDとLDの保存を改善している。
以上の結果から,HFGFは合成表データの構造的忠実度と下流の有用性を著しく向上させることができることが示唆された。
関連論文リスト
- StructSynth: Leveraging LLMs for Structure-Aware Tabular Data Synthesis in Low-Data Regimes [15.476662936746989]
構造化シンス(Struct Synth)は、大規模言語モデルの生成能力と堅牢な構造制御を統合する新しいフレームワークである。
最先端の手法よりもはるかに高い構造整合性と下流の実用性を持つ合成データを生成する。
これは低データのシナリオに挑戦する上で特に有効であることが証明され、プライバシー保護と統計的忠実性の間のトレードオフをナビゲートすることに成功した。
論文 参考訳(メタデータ) (2025-08-04T16:55:02Z) - RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - Causal Discovery from Data Assisted by Large Language Models [50.193740129296245]
知識駆動発見のために、実験データと事前のドメイン知識を統合することが不可欠である。
本稿では、高分解能走査透過電子顕微鏡(STEM)データと大規模言語モデル(LLM)からの洞察を組み合わせることで、このアプローチを実証する。
SmドープBiFeO3(SmBFO)におけるChatGPTをドメイン固有文献に微調整することにより、構造的、化学的、分極的自由度の間の因果関係をマッピングするDAG(Directed Acyclic Graphs)の隣接行列を構築する。
論文 参考訳(メタデータ) (2025-03-18T02:14:49Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。
GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。
ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文 参考訳(メタデータ) (2025-02-20T12:56:16Z) - Preserving logical and functional dependencies in synthetic tabular data [0.0]
本稿では,属性間の論理的依存関係の概念を紹介する。
また、表データの属性間の論理的依存関係を定量化する尺度も提供します。
現在利用可能な合成データ生成アルゴリズムは、合成データセットを生成する際に、機能的依存関係を完全に保存していないことを実証する。
論文 参考訳(メタデータ) (2024-09-26T09:51:07Z) - Tree-based variational inference for Poisson log-normal models [47.82745603191512]
階層木は、しばしば近接基準に基づいてエンティティを組織するために使用される。
現在のカウントデータモデルは、この構造化情報を利用していない。
本稿では,PLNモデルの拡張としてPLN-Treeモデルを導入し,階層的カウントデータをモデル化する。
論文 参考訳(メタデータ) (2024-06-25T08:24:35Z) - CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。