論文の概要: IRG: Generating Synthetic Relational Databases using Deep Learning with Insightful Relational Understanding
- arxiv url: http://arxiv.org/abs/2312.15187v2
- Date: Mon, 30 Dec 2024 02:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 22:07:02.18385
- Title: IRG: Generating Synthetic Relational Databases using Deep Learning with Insightful Relational Understanding
- Title(参考訳): IRG: 深い学習と洞察的関係理解を用いた合成関係データベースの生成
- Authors: Jiayu Li, Zilong Zhao, Vikram Chundawat, Biplab Sikdar, Y. C. Tay,
- Abstract要約: 本稿では,ユビキタスな実環境をうまく処理できるインクリメンタルジェネレータ(IRG)を提案する。
IRGは関係スキーマの整合性の維持を保証し、直接の祖先や子孫を超えた関係の深い理解を提供する。
異なるスケールの異なる分野における3つのオープンソースの実生活関係データセットの実験は、IRGが合成データのリレーショナルスキーマの妥当性とデータの忠実さと有用性を維持できるという利点を示している。
- 参考スコア(独自算出の注目度): 13.724085637262654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has numerous applications, including but not limited to software testing at scale, privacy-preserving data sharing to enable smoother collaboration between stakeholders, and data augmentation for analytical and machine learning tasks. Relational databases, which are commonly used by corporations, governments, and financial institutions, present unique challenges for synthetic data generation due to their complex structures. Existing synthetic relational database generation approaches often assume idealized scenarios, such as every table having a perfect primary key column without composite and potentially overlapping primary or foreign key constraints, and fail to account for the sequential nature of certain tables. In this paper, we propose incremental relational generator (IRG), that successfully handles these ubiquitous real-life situations. IRG ensures the preservation of relational schema integrity, offers a deep contextual understanding of relationships beyond direct ancestors and descendants, leverages the power of newly designed deep neural networks, and scales efficiently to handle larger datasets--a combination never achieved in previous works. Experiments on three open-source real-life relational datasets in different fields at different scales demonstrate IRG's advantage in maintaining the synthetic data's relational schema validity and data fidelity and utility.
- Abstract(参考訳): シンセティックデータには、大規模なソフトウェアテストに限らず、ステークホルダ間のよりスムーズなコラボレーションを可能にするプライバシ保護データ共有、分析および機械学習タスクのためのデータ拡張など、多数のアプリケーションがある。
関係データベースは、企業、政府、金融機関で一般的に使われているが、複雑な構造のため、合成データ生成にはユニークな課題がある。
既存の合成リレーショナルデータベース生成アプローチは、合成されていない完全なプライマリキー列を持ち、潜在的に重複するプライマリキーや外部キーの制約を持ち、特定のテーブルのシーケンシャルな性質を説明できないような、理想的なシナリオを仮定することが多い。
本稿では、これらのユビキタスな実環境をうまく扱えるインクリメンタルリレーショナル・リレーショナル・ジェネレータ(IRG)を提案する。
IRGはリレーショナルスキーマの整合性の維持を保証し、直接の祖先や子孫を超えて関係を深く理解し、新しく設計されたディープニューラルネットワークのパワーを活用し、より大規模なデータセットを処理するために効率的にスケールする。
異なるスケールの異なる分野における3つのオープンソースの実生活関係データセットの実験は、IRGが合成データのリレーショナルスキーマの妥当性とデータの忠実さと有用性を維持できるという利点を示している。
関連論文リスト
- Boosting Relational Deep Learning with Pretrained Tabular Models [18.34233986830027]
グラフニューラルネットワーク(GNN)は、これらの関係をモデル化することで本質的に魅力的な代替手段を提供する。
我々のフレームワークは、GNNと比較して最大33%のパフォーマンス改善と526タイムの推論スピードアップを実現しています。
論文 参考訳(メタデータ) (2025-04-07T11:19:04Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
本稿では,リレーショナルデータベースの特徴を捉えた新しいGNNフレームワークであるRelGNNを紹介する。
我々のアプローチの核となるのは、高次三部構造を形成するノードの列である原子経路の導入である。
RelGNNは、最先端の精度を最大25%改善して一貫して達成している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - RelBench: A Benchmark for Deep Learning on Relational Databases [78.52438155603781]
本稿では,グラフニューラルネットワークを用いたデータベース上でタスクを解くための公開ベンチマークであるRelBenchを紹介する。
私たちはRelBenchを使って、ディープラーニングインフラストラクチャに関する初の総合的な研究を行っています。
RDLは、人間の作業量を1桁以上削減しながら、より良く学習する。
論文 参考訳(メタデータ) (2024-07-29T14:46:13Z) - Adapting Differentially Private Synthetic Data to Relational Databases [9.532509662034062]
我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。
我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
論文 参考訳(メタデータ) (2024-05-29T00:25:07Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Row Conditional-TGAN for generating synthetic relational databases [0.0]
本稿ではRow-Tabular Generative Adversarial Network (RC-TGAN)を提案する。
RC-TGANは、子テーブルのGANの設計に親行の条件データを組み込むことで、テーブル間の関係情報をモデル化する。
論文 参考訳(メタデータ) (2022-11-14T18:14:18Z) - Generative Adversarial Networks for Synthetic Data Generation: A
Comparative Study [1.0896567381206714]
データ合成の手段としてGAN(Generative Adversarial Networks)が注目されている。
本稿では,合成国勢調査マイクロデータの生成を目的としたGANの活用の可能性について考察する。
論文 参考訳(メタデータ) (2021-12-03T14:23:17Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Brainstorming Generative Adversarial Networks (BGANs): Towards
Multi-Agent Generative Models with Distributed Private Datasets [70.62568022925971]
生成的敵ネットワーク(GAN)は、データ空間を適切に表現する大規模なデータセットによって供給されなければならない。
多くのシナリオでは、利用可能なデータセットは制限され、複数のエージェントに分散する可能性がある。
本稿では,BGAN(Breepstorming GAN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-02T02:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。