論文の概要: Private Synthetic Data with Hierarchical Structure
- arxiv url: http://arxiv.org/abs/2206.05942v1
- Date: Mon, 13 Jun 2022 07:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 16:29:02.338398
- Title: Private Synthetic Data with Hierarchical Structure
- Title(参考訳): 階層構造を持つプライベート合成データ
- Authors: Terrance Liu, Zhiwei Steven Wu
- Abstract要約: 本研究では,個々のデータポイントがグループ化される階層的データセットに対する差分プライベートな合成データ生成の問題について検討する。
特に、合成データセットと基礎となるプライベートデータセットの類似性を測定するために、プライベートクエリリリースの問題の下で、私たちの目標を設定します。
階層型クエリリリースのためのプライベートな合成データアルゴリズムを導入し、階層型データセット上で評価する。
- 参考スコア(独自算出の注目度): 33.72123440111452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of differentially private synthetic data generation for
hierarchical datasets in which individual data points are grouped together
(e.g., people within households). In particular, to measure the similarity
between the synthetic dataset and the underlying private one, we frame our
objective under the problem of private query release, generating a synthetic
dataset that preserves answers for some collection of queries (i.e., statistics
like mean aggregate counts). However, while the application of private
synthetic data to the problem of query release has been well studied, such
research is restricted to non-hierarchical data domains, raising the initial
question -- what queries are important when considering data of this form?
Moreover, it has not yet been established how one can generate synthetic data
at both the group and individual-level while capturing such statistics. In
light of these challenges, we first formalize the problem of hierarchical query
release, in which the goal is to release a collection of statistics for some
hierarchical dataset. Specifically, we provide a general set of statistical
queries that captures relationships between attributes at both the group and
individual-level. Subsequently, we introduce private synthetic data algorithms
for hierarchical query release and evaluate them on hierarchical datasets
derived from the American Community Survey and Allegheny Family Screening Tool
data. Finally, we look to the American Community Survey, whose inherent
hierarchical structure gives rise to another set of domain-specific queries
that we run experiments with.
- Abstract(参考訳): 本研究では、個人データポイントがグループ化される階層的データセット(例えば、家庭内の人々)に対する差分プライベートな合成データ生成の問題について検討する。
特に、合成データセットと基礎となるプライベートデータセットの類似性を測定するために、プライベートクエリリリースの問題の下で目的を定め、クエリの集合(平均集計数のような統計)の回答を保存する合成データセットを生成します。
しかし、クエリリリース問題へのプライベートな合成データの適用はよく研究されているが、そのような研究は階層的でないデータドメインに限定されており、最初の疑問を提起している。
さらに、これらの統計を捉えながら、グループレベルでも個人レベルでも合成データを生成する方法はまだ確立されていない。
これらの課題を踏まえて、我々はまず階層的なクエリリリースの問題を定式化し、そこでは階層的なデータセットの統計収集を目標としています。
具体的には、グループと個人レベルの属性間の関係をキャプチャする統計クエリの一般的なセットを提供する。
次に,階層的クエリリリースのためのプライベート合成データアルゴリズムを導入し,american community surveyとalegheny family screening toolデータから得られた階層的データセット上で評価する。
最後に、アメリカン・コミュニティ・サーベイ(American Community Survey)に注目します。その本質的に階層構造は、実験を行う別のドメイン固有のクエリのセットを生み出します。
関連論文リスト
- Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets [0.0]
DIPSデータセットの分析にルールを組み合わせることによって,プロシージャの適用性を検討する。
我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
論文 参考訳(メタデータ) (2024-05-08T02:33:35Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms [17.562365686511818]
本稿では,DP-PQDという新しいフレームワークを提案する。このフレームワークは,プライベートデータセットと合成データセットの問合せ回答が,ユーザの指定しきい値内にあるかどうかを検出する。
提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を分析し,実験的に評価する。
論文 参考訳(メタデータ) (2023-09-15T17:38:59Z) - Continual Release of Differentially Private Synthetic Data from Longitudinal Data Collections [19.148874215745135]
本研究では,縦方向のデータ収集から微分プライベートな合成データを連続的に放出する問題について検討する。
各ステップごとに、各ステップが新しいデータ要素をレポートするモデルを導入します。
本稿では,2種類のクエリを連続的に保存する合成データ生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-13T16:22:08Z) - GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources [21.32471030724983]
人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
論文 参考訳(メタデータ) (2022-12-08T01:22:12Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Differential Privacy of Hierarchical Census Data: An Optimization
Approach [53.29035917495491]
国勢調査局(Census Bureaus)は、個人に関する機密情報を明らかにすることなく、大人口に関する社会経済的データをまとめて公開することに興味を持っている。
最近の出来事では、これらの組織が直面しているプライバシー上の課題がいくつか特定されている。
本稿では,階層的な個人数を解放する新たな差分プライバシ機構を提案する。
論文 参考訳(メタデータ) (2020-06-28T18:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。