論文の概要: RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.00710v1
- Date: Sat, 31 May 2025 21:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.497795
- Title: RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models
- Title(参考訳): RelDiff:グラフベース拡散モデルによる関係データ生成モデリング
- Authors: Valter Hudovernik, Minkai Xu, Juntong Shi, Lovro Šubelj, Stefano Ermon, Erik Štrumbelj, Jure Leskovec,
- Abstract要約: RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 83.6013616017646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world databases are predominantly relational, comprising multiple interlinked tables that contain complex structural and statistical dependencies. Learning generative models on relational data has shown great promise in generating synthetic data and imputing missing values. However, existing methods often struggle to capture this complexity, typically reducing relational data to conditionally generated flat tables and imposing limiting structural assumptions. To address these limitations, we introduce RelDiff, a novel diffusion generative model that synthesizes complete relational databases by explicitly modeling their foreign key graph structure. RelDiff combines a joint graph-conditioned diffusion process across all tables for attribute synthesis, and a $2K+$SBM graph generator based on the Stochastic Block Model for structure generation. The decomposition of graph structure and relational attributes ensures both high fidelity and referential integrity, both of which are crucial aspects of synthetic relational database generation. Experiments on 11 benchmark datasets demonstrate that RelDiff consistently outperforms prior methods in producing realistic and coherent synthetic relational databases. Code is available at https://github.com/ValterH/RelDiff.
- Abstract(参考訳): 実世界のデータベースは主にリレーショナルであり、複雑な構造的および統計的依存関係を含む複数の相互リンクテーブルから構成される。
リレーショナルデータにおける生成モデル学習は、合成データの生成と、欠落した値の計算において、大きな可能性を秘めている。
しかし、既存の手法はしばしばこの複雑さを捉えるのに苦労し、典型的にはリレーショナルデータを条件付き平らなテーブルに還元し、構造的な仮定を制限する。
これらの制約に対処するために、外部キーグラフ構造を明示的にモデル化して完全な関係データベースを合成する新しい拡散生成モデルであるRelDiffを導入する。
RelDiffは、属性合成のために全てのテーブルに結合グラフ条件の拡散プロセスと、構造生成のための確率ブロックモデルに基づく2K+$SBMグラフ生成器を組み合わせる。
グラフ構造と関係属性の分解により、高い忠実度と参照整合性が保証される。
11のベンチマークデータセットの実験では、RelDiffは現実的で一貫性のある合成リレーショナルデータベースの生成において、従来手法よりも一貫して優れていたことが示されている。
コードはhttps://github.com/ValterH/RelDiff.comで入手できる。
関連論文リスト
- Joint Relational Database Generation via Graph-Conditional Diffusion Models [44.06390394789874]
プライバシのデータリリースや実際のデータセットといったアプリケーションでは、データベース(RDB)の生成モデルの構築が重要です。
従来はシングルテーブル生成にフォーカスするか、あるいはテーブルの順序を固定しテーブルを逐次生成する自動回帰因子化に依存していた。
我々は、RDB内のすべてのテーブルを秩序を課すことなく、共同でモデリングするという、根本的に異なるアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-22T11:12:56Z) - Graph Conditional Flow Matching for Relational Data Generation [0.8823131482758475]
本稿では,外部キー関係によって生成されたグラフから関係データセットの内容を生成する関係データ生成モデルを提案する。
我々は、フローマッチングにより、関係データベース全体の内容の深い生成モデルを学ぶことによって、これを行う。
我々の方法は、複雑な構造を持つ関係データセットをサポートでき、各レコードの生成は、同じ接続されたコンポーネント内の他のレコードの影響を受けられるので、柔軟である。
論文 参考訳(メタデータ) (2025-05-21T15:45:15Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Differentially Private Synthetic Data Generation for Relational Databases [9.532509662034062]
我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。
我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
論文 参考訳(メタデータ) (2024-05-29T00:25:07Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - HittER: Hierarchical Transformers for Knowledge Graph Embeddings [85.93509934018499]
複雑な知識グラフにおける実体と関係の表現を学習するためにHittを提案する。
実験結果から,Hittは複数リンク予測において最先端の新たな結果が得られることがわかった。
さらに,HittをBERTに統合する簡単なアプローチを提案し,その効果を2つのFreebaseファクトイド対応データセットで示す。
論文 参考訳(メタデータ) (2020-08-28T18:58:15Z) - On Embeddings in Relational Databases [11.52782249184251]
低次元埋め込みを用いた関係データベースにおけるエンティティの分散表現学習の問題に対処する。
近年の埋め込み学習法は,すべてのテーブルの完全結合をリレーショナル化し,知識グラフとして表すことにより,データベースの完全非正規化を考慮に入れたナイーブな手法である。
本稿では,テーブル内の列の基本的なセマンティクスを利用して表現を学習する上で,関係結合と潜時関係を用いて,より優れた方法論を実証する。
論文 参考訳(メタデータ) (2020-05-13T17:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。