論文の概要: Continual Release of Differentially Private Synthetic Data
- arxiv url: http://arxiv.org/abs/2306.07884v1
- Date: Tue, 13 Jun 2023 16:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:54:20.655107
- Title: Continual Release of Differentially Private Synthetic Data
- Title(参考訳): 微分プライベート合成データの連続的リリース
- Authors: Mark Bun, Marco Gaboardi, Marcel Neunhoeffer, Wanrong Zhang
- Abstract要約: 微分プライベートな合成データを連続的にリリースする問題について検討する。
各ステップごとに、各ステップが新しいデータ要素をレポートするモデルを導入します。
本稿では,2種類のクエリを連続的に保存する合成データ生成アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 31.37064398694776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motivated by privacy concerns in long-term longitudinal studies in medical
and social science research, we study the problem of continually releasing
differentially private synthetic data. We introduce a model where, in every
time step, each individual reports a new data element, and the goal of the
synthesizer is to incrementally update a synthetic dataset to capture a rich
class of statistical properties. We give continual synthetic data generation
algorithms that preserve two basic types of queries: fixed time window queries
and cumulative time queries. We show nearly tight upper bounds on the error
rates of these algorithms and demonstrate their empirical performance on
realistically sized datasets from the U.S. Census Bureau's Survey of Income and
Program Participation.
- Abstract(参考訳): 医学・社会科学研究における長期的縦断的研究におけるプライバシーの懸念に動機付けられ, 差分的プライベートな合成データを継続的にリリースする問題について検討した。
我々は,各段階において,各段階ごとに新しいデータ要素を報告し,合成器の目標は,合成データセットを漸進的に更新して,リッチな統計特性をキャプチャするモデルを導入する。
固定時間ウィンドウクエリと累積時間クエリの2つの基本型を格納する連続合成データ生成アルゴリズムを提供する。
我々は,これらのアルゴリズムの誤差率についてほぼ上限を示し,米国国勢調査局の所得調査およびプログラム参加調査から得られた,現実的なサイズのデータセットにおけるその経験的性能を実証する。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Are Synthetic Time-series Data Really not as Good as Real Data? [29.852306720544224]
時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。
InfoBoostは、時系列表現学習機能を備えた、高度に汎用的なクロスドメインデータ合成フレームワークである。
本研究では,実データを用いて学習したモデルの性能を上回りながら,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。
論文 参考訳(メタデータ) (2024-02-01T13:59:04Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。
我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。
先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文 参考訳(メタデータ) (2023-06-19T17:08:32Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Grouped self-attention mechanism for a memory-efficient Transformer [64.0125322353281]
天気予報、電力消費、株式市場などの現実世界のタスクには、時間とともに変化するデータの予測が含まれる。
時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。
我々はGSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)の2つの新しいモジュールを提案する。
提案モデルでは,既存の手法に匹敵する計算量と性能の低減が効果的に示された。
論文 参考訳(メタデータ) (2022-10-02T06:58:49Z) - Private Synthetic Data with Hierarchical Structure [33.72123440111452]
本研究では,個々のデータポイントがグループ化される階層的データセットに対する差分プライベートな合成データ生成の問題について検討する。
特に、合成データセットと基礎となるプライベートデータセットの類似性を測定するために、プライベートクエリリリースの問題の下で、私たちの目標を設定します。
階層型クエリリリースのためのプライベートな合成データアルゴリズムを導入し、階層型データセット上で評価する。
論文 参考訳(メタデータ) (2022-06-13T07:22:21Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。