論文の概要: Continual Release of Differentially Private Synthetic Data
- arxiv url: http://arxiv.org/abs/2306.07884v1
- Date: Tue, 13 Jun 2023 16:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:54:20.655107
- Title: Continual Release of Differentially Private Synthetic Data
- Title(参考訳): 微分プライベート合成データの連続的リリース
- Authors: Mark Bun, Marco Gaboardi, Marcel Neunhoeffer, Wanrong Zhang
- Abstract要約: 微分プライベートな合成データを連続的にリリースする問題について検討する。
各ステップごとに、各ステップが新しいデータ要素をレポートするモデルを導入します。
本稿では,2種類のクエリを連続的に保存する合成データ生成アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 31.37064398694776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motivated by privacy concerns in long-term longitudinal studies in medical
and social science research, we study the problem of continually releasing
differentially private synthetic data. We introduce a model where, in every
time step, each individual reports a new data element, and the goal of the
synthesizer is to incrementally update a synthetic dataset to capture a rich
class of statistical properties. We give continual synthetic data generation
algorithms that preserve two basic types of queries: fixed time window queries
and cumulative time queries. We show nearly tight upper bounds on the error
rates of these algorithms and demonstrate their empirical performance on
realistically sized datasets from the U.S. Census Bureau's Survey of Income and
Program Participation.
- Abstract(参考訳): 医学・社会科学研究における長期的縦断的研究におけるプライバシーの懸念に動機付けられ, 差分的プライベートな合成データを継続的にリリースする問題について検討した。
我々は,各段階において,各段階ごとに新しいデータ要素を報告し,合成器の目標は,合成データセットを漸進的に更新して,リッチな統計特性をキャプチャするモデルを導入する。
固定時間ウィンドウクエリと累積時間クエリの2つの基本型を格納する連続合成データ生成アルゴリズムを提供する。
我々は,これらのアルゴリズムの誤差率についてほぼ上限を示し,米国国勢調査局の所得調査およびプログラム参加調査から得られた,現実的なサイズのデータセットにおけるその経験的性能を実証する。
関連論文リスト
- Are Synthetic Time-series Data Really not as Good as Real Data? [29.852306720544224]
時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。
InfoBoostは、時系列表現学習機能を備えた、高度に汎用的なクロスドメインデータ合成フレームワークである。
本研究では,実データを用いて学習したモデルの性能を上回りながら,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。
論文 参考訳(メタデータ) (2024-02-01T13:59:04Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。
我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。
先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文 参考訳(メタデータ) (2023-06-19T17:08:32Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data [0.0]
aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。
我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
論文 参考訳(メタデータ) (2021-04-01T17:30:23Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z) - Differential Privacy of Hierarchical Census Data: An Optimization
Approach [53.29035917495491]
国勢調査局(Census Bureaus)は、個人に関する機密情報を明らかにすることなく、大人口に関する社会経済的データをまとめて公開することに興味を持っている。
最近の出来事では、これらの組織が直面しているプライバシー上の課題がいくつか特定されている。
本稿では,階層的な個人数を解放する新たな差分プライバシ機構を提案する。
論文 参考訳(メタデータ) (2020-06-28T18:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。