論文の概要: Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders
- arxiv url: http://arxiv.org/abs/2211.16889v1
- Date: Wed, 30 Nov 2022 10:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:55:28.590428
- Title: Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders
- Title(参考訳): グラフ変分オートエンコーダによるリアルな合成関係データの生成
- Authors: Ciro Antonio Mami, Andrea Coser, Eric Medvet, Alexander T.P.
Boudewijn, Marco Volpe, Michael Whitworth, Borut Svara, Gabriele Sgroi,
Daniele Panfilo, Sebastiano Saccani
- Abstract要約: 変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
- 参考スコア(独自算出の注目度): 47.89542334125886
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthetic data generation has recently gained widespread attention as a more
reliable alternative to traditional data anonymization. The involved methods
are originally developed for image synthesis. Hence, their application to the
typically tabular and relational datasets from healthcare, finance and other
industries is non-trivial. While substantial research has been devoted to the
generation of realistic tabular datasets, the study of synthetic relational
databases is still in its infancy. In this paper, we combine the variational
autoencoder framework with graph neural networks to generate realistic
synthetic relational databases. We then apply the obtained method to two
publicly available databases in computational experiments. The results indicate
that real databases' structures are accurately preserved in the resulting
synthetic datasets, even for large datasets with advanced data types.
- Abstract(参考訳): 合成データ生成は最近、従来のデータ匿名化よりも信頼性の高い代替手段として広く注目を集めている。
この手法はもともと画像合成のために開発された。
したがって、医療、金融、その他の産業の典型的な表型および関係性データセットへの彼らの応用は自明ではない。
現実的な表型データセットの生成にかなりの研究が費やされているが、合成関係データベースの研究はまだ初期段階にある。
本稿では,変分オートエンコーダフレームワークをグラフニューラルネットワークと組み合わせて,リアルな合成関係データベースを生成する。
得られた手法を2つの公開データベースに適用して計算実験を行う。
その結果、実際のデータベースの構造は、高度なデータ型を持つ大規模なデータセットであっても、結果の合成データセットに正確に保存されていることがわかった。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial
Networks [7.232789848964222]
因果モデルCausal Tabular Generative Neural Network (Causal-TGAN) を提案し,合成データを生成する。
シミュレーションデータセットと実データセットの両方の実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2021-04-21T17:59:41Z) - Improving Text Relationship Modeling with Artificial Data [0.07614628596146598]
本稿では,デジタル図書館における関係分類への合成データアプローチの適用と評価を行う。
本書間の全部分関係の分類において、合成データはディープニューラルネットワーク分類器を91%改善することがわかった。
論文 参考訳(メタデータ) (2020-10-27T22:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。