論文の概要: Adapting Differentially Private Synthetic Data to Relational Databases
- arxiv url: http://arxiv.org/abs/2405.18670v1
- Date: Wed, 29 May 2024 00:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:13:51.656721
- Title: Adapting Differentially Private Synthetic Data to Relational Databases
- Title(参考訳): リレーショナルデータベースへの微分プライベート合成データの適用
- Authors: Kaveh Alimohammadi, Hao Wang, Ojas Gulati, Akash Srivastava, Navid Azizan,
- Abstract要約: 我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。
我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
- 参考スコア(独自算出の注目度): 9.532509662034062
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing differentially private (DP) synthetic data generation mechanisms typically assume a single-source table. In practice, data is often distributed across multiple tables with relationships across tables. In this paper, we introduce the first-of-its-kind algorithm that can be combined with any existing DP mechanisms to generate synthetic relational databases. Our algorithm iteratively refines the relationship between individual synthetic tables to minimize their approximation errors in terms of low-order marginal distributions while maintaining referential integrity. Finally, we provide both DP and theoretical utility guarantees for our algorithm.
- Abstract(参考訳): 既存の差分プライベート(DP)合成データ生成機構は、典型的には単一ソーステーブルを仮定する。
実際には、データは複数のテーブルに分散し、テーブルにまたがる関係を持つことが多い。
本稿では,既存のDP機構と組み合わせて合成関係データベースを生成するアルゴリズムを提案する。
本アルゴリズムは,参照整合性を維持しつつ,低次辺分布の近似誤差を最小限に抑えるために,個々の合成表間の関係を反復的に洗練する。
最後に,提案アルゴリズムのDPと理論的実用性を保証する。
関連論文リスト
- Towards Privacy-Preserving Relational Data Synthesis via Probabilistic Relational Models [3.877001015064152]
確率的リレーショナルモデルは、一階述語論理と確率的モデルを組み合わせるための確立された形式主義を提供する。
人工知能の分野は、さまざまな機械学習タスクのために、ますます大量のリレーショナルトレーニングデータを必要とする。
プライバシの懸念やデータ保護の規制、高コストなどにより、現実のデータの収集は難しいことが多い。
論文 参考訳(メタデータ) (2024-09-06T11:24:25Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data [0.7252027234425334]
SynDiffixは構造化データ合成のための新しいオープンソースツールである。
匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。
本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の合成データ技術を比較した。
論文 参考訳(メタデータ) (2024-03-13T12:26:50Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - Privately generating tabular data using language models [80.67328256105891]
テーブルからプライベートに合成データを生成することは、プライバシ優先の世界の重要なブロックである。
本稿では,テーブル内の各行を文として扱い,差分プライバシーを持つ言語モデルを訓練する簡単な手法を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T21:53:14Z) - Statistical Theory of Differentially Private Marginal-based Data
Synthesis Algorithms [30.330715718619874]
国立標準技術研究所主催の総合データコンペティションにおける有望なパフォーマンスを実現するマージナルベース手法
実際には有望な性能にもかかわらず、境界に基づく手法の統計的性質は文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2023-01-21T01:32:58Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - On Embeddings in Relational Databases [11.52782249184251]
低次元埋め込みを用いた関係データベースにおけるエンティティの分散表現学習の問題に対処する。
近年の埋め込み学習法は,すべてのテーブルの完全結合をリレーショナル化し,知識グラフとして表すことにより,データベースの完全非正規化を考慮に入れたナイーブな手法である。
本稿では,テーブル内の列の基本的なセマンティクスを利用して表現を学習する上で,関係結合と潜時関係を用いて,より優れた方法論を実証する。
論文 参考訳(メタデータ) (2020-05-13T17:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。