論文の概要: IRG: Generating Synthetic Relational Databases using Deep Learning with Insightful Relational Understanding
- arxiv url: http://arxiv.org/abs/2312.15187v2
- Date: Mon, 30 Dec 2024 02:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:00:03.525827
- Title: IRG: Generating Synthetic Relational Databases using Deep Learning with Insightful Relational Understanding
- Title(参考訳): IRG: 深い学習と洞察的関係理解を用いた合成関係データベースの生成
- Authors: Jiayu Li, Zilong Zhao, Vikram Chundawat, Biplab Sikdar, Y. C. Tay,
- Abstract要約: 本稿では,ユビキタスな実環境をうまく処理できるインクリメンタルジェネレータ(IRG)を提案する。
IRGは関係スキーマの整合性の維持を保証し、直接の祖先や子孫を超えた関係の深い理解を提供する。
異なるスケールの異なる分野における3つのオープンソースの実生活関係データセットの実験は、IRGが合成データのリレーショナルスキーマの妥当性とデータの忠実さと有用性を維持できるという利点を示している。
- 参考スコア(独自算出の注目度): 13.724085637262654
- License:
- Abstract: Synthetic data has numerous applications, including but not limited to software testing at scale, privacy-preserving data sharing to enable smoother collaboration between stakeholders, and data augmentation for analytical and machine learning tasks. Relational databases, which are commonly used by corporations, governments, and financial institutions, present unique challenges for synthetic data generation due to their complex structures. Existing synthetic relational database generation approaches often assume idealized scenarios, such as every table having a perfect primary key column without composite and potentially overlapping primary or foreign key constraints, and fail to account for the sequential nature of certain tables. In this paper, we propose incremental relational generator (IRG), that successfully handles these ubiquitous real-life situations. IRG ensures the preservation of relational schema integrity, offers a deep contextual understanding of relationships beyond direct ancestors and descendants, leverages the power of newly designed deep neural networks, and scales efficiently to handle larger datasets--a combination never achieved in previous works. Experiments on three open-source real-life relational datasets in different fields at different scales demonstrate IRG's advantage in maintaining the synthetic data's relational schema validity and data fidelity and utility.
- Abstract(参考訳): シンセティックデータには、大規模なソフトウェアテストに限らず、ステークホルダ間のよりスムーズなコラボレーションを可能にするプライバシ保護データ共有、分析および機械学習タスクのためのデータ拡張など、多数のアプリケーションがある。
関係データベースは、企業、政府、金融機関で一般的に使われているが、複雑な構造のため、合成データ生成にはユニークな課題がある。
既存の合成リレーショナルデータベース生成アプローチは、合成されていない完全なプライマリキー列を持ち、潜在的に重複するプライマリキーや外部キーの制約を持ち、特定のテーブルのシーケンシャルな性質を説明できないような、理想的なシナリオを仮定することが多い。
本稿では、これらのユビキタスな実環境をうまく扱えるインクリメンタルリレーショナル・リレーショナル・ジェネレータ(IRG)を提案する。
IRGはリレーショナルスキーマの整合性の維持を保証し、直接の祖先や子孫を超えて関係を深く理解し、新しく設計されたディープニューラルネットワークのパワーを活用し、より大規模なデータセットを処理するために効率的にスケールする。
異なるスケールの異なる分野における3つのオープンソースの実生活関係データセットの実験は、IRGが合成データのリレーショナルスキーマの妥当性とデータの忠実さと有用性を維持できるという利点を示している。
関連論文リスト
- RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
本稿では,リレーショナルデータベースの特徴を捉えた新しいGNNフレームワークであるRelGNNを紹介する。
我々のアプローチの核となるのは、高次三部構造を形成するノードの列である原子経路の導入である。
RelGNNは、最先端の精度を最大25%改善して一貫して達成している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - Towards Privacy-Preserving Relational Data Synthesis via Probabilistic Relational Models [3.877001015064152]
確率的リレーショナルモデルは、一階述語論理と確率的モデルを組み合わせるための確立された形式主義を提供する。
人工知能の分野は、さまざまな機械学習タスクのために、ますます大量のリレーショナルトレーニングデータを必要とする。
プライバシの懸念やデータ保護の規制、高コストなどにより、現実のデータの収集は難しいことが多い。
論文 参考訳(メタデータ) (2024-09-06T11:24:25Z) - RelBench: A Benchmark for Deep Learning on Relational Databases [78.52438155603781]
本稿では,グラフニューラルネットワークを用いたデータベース上でタスクを解くための公開ベンチマークであるRelBenchを紹介する。
私たちはRelBenchを使って、ディープラーニングインフラストラクチャに関する初の総合的な研究を行っています。
RDLは、人間の作業量を1桁以上削減しながら、より良く学習する。
論文 参考訳(メタデータ) (2024-07-29T14:46:13Z) - Differentially Private Synthetic Data Generation for Relational Databases [9.532509662034062]
我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。
我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
論文 参考訳(メタデータ) (2024-05-29T00:25:07Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Federated Learning with GAN-based Data Synthesis for Non-IID Clients [8.304185807036783]
フェデレートラーニング(FL)は、最近、プライバシ保護のためのコラボレーティブラーニングパラダイムとして人気を博している。
我々は,合成データを共有することで,この非IID課題を解決するために,SDA-FL(Synthetic Data Aided Federated Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T11:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。