論文の概要: Private Synthetic Data with Hierarchical Structure
- arxiv url: http://arxiv.org/abs/2206.05942v1
- Date: Mon, 13 Jun 2022 07:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 16:29:02.338398
- Title: Private Synthetic Data with Hierarchical Structure
- Title(参考訳): 階層構造を持つプライベート合成データ
- Authors: Terrance Liu, Zhiwei Steven Wu
- Abstract要約: 本研究では,個々のデータポイントがグループ化される階層的データセットに対する差分プライベートな合成データ生成の問題について検討する。
特に、合成データセットと基礎となるプライベートデータセットの類似性を測定するために、プライベートクエリリリースの問題の下で、私たちの目標を設定します。
階層型クエリリリースのためのプライベートな合成データアルゴリズムを導入し、階層型データセット上で評価する。
- 参考スコア(独自算出の注目度): 33.72123440111452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of differentially private synthetic data generation for
hierarchical datasets in which individual data points are grouped together
(e.g., people within households). In particular, to measure the similarity
between the synthetic dataset and the underlying private one, we frame our
objective under the problem of private query release, generating a synthetic
dataset that preserves answers for some collection of queries (i.e., statistics
like mean aggregate counts). However, while the application of private
synthetic data to the problem of query release has been well studied, such
research is restricted to non-hierarchical data domains, raising the initial
question -- what queries are important when considering data of this form?
Moreover, it has not yet been established how one can generate synthetic data
at both the group and individual-level while capturing such statistics. In
light of these challenges, we first formalize the problem of hierarchical query
release, in which the goal is to release a collection of statistics for some
hierarchical dataset. Specifically, we provide a general set of statistical
queries that captures relationships between attributes at both the group and
individual-level. Subsequently, we introduce private synthetic data algorithms
for hierarchical query release and evaluate them on hierarchical datasets
derived from the American Community Survey and Allegheny Family Screening Tool
data. Finally, we look to the American Community Survey, whose inherent
hierarchical structure gives rise to another set of domain-specific queries
that we run experiments with.
- Abstract(参考訳): 本研究では、個人データポイントがグループ化される階層的データセット(例えば、家庭内の人々)に対する差分プライベートな合成データ生成の問題について検討する。
特に、合成データセットと基礎となるプライベートデータセットの類似性を測定するために、プライベートクエリリリースの問題の下で目的を定め、クエリの集合(平均集計数のような統計)の回答を保存する合成データセットを生成します。
しかし、クエリリリース問題へのプライベートな合成データの適用はよく研究されているが、そのような研究は階層的でないデータドメインに限定されており、最初の疑問を提起している。
さらに、これらの統計を捉えながら、グループレベルでも個人レベルでも合成データを生成する方法はまだ確立されていない。
これらの課題を踏まえて、我々はまず階層的なクエリリリースの問題を定式化し、そこでは階層的なデータセットの統計収集を目標としています。
具体的には、グループと個人レベルの属性間の関係をキャプチャする統計クエリの一般的なセットを提供する。
次に,階層的クエリリリースのためのプライベート合成データアルゴリズムを導入し,american community surveyとalegheny family screening toolデータから得られた階層的データセット上で評価する。
最後に、アメリカン・コミュニティ・サーベイ(American Community Survey)に注目します。その本質的に階層構造は、実験を行う別のドメイン固有のクエリのセットを生み出します。
関連論文リスト
- Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Continual Release of Differentially Private Synthetic Data [31.37064398694776]
微分プライベートな合成データを連続的にリリースする問題について検討する。
各ステップごとに、各ステップが新しいデータ要素をレポートするモデルを導入します。
本稿では,2種類のクエリを連続的に保存する合成データ生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-13T16:22:08Z) - GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources [21.32471030724983]
人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
論文 参考訳(メタデータ) (2022-12-08T01:22:12Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Is Synthetic Dataset Reliable for Benchmarking Generalizable Person
Re-Identification? [1.1041211464412568]
最近の大規模合成データセット ClonedPerson は実世界のデータセットと統計的に同じGPReIDのベンチマークに確実に使用できることを示す。
本研究では、ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証する。
論文 参考訳(メタデータ) (2022-09-12T06:54:54Z) - Federated Learning with GAN-based Data Synthesis for Non-IID Clients [8.304185807036783]
フェデレートラーニング(FL)は、最近、プライバシ保護のためのコラボレーティブラーニングパラダイムとして人気を博している。
我々は,合成データを共有することで,この非IID課題を解決するために,SDA-FL(Synthetic Data Aided Federated Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T11:43:25Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Differential Privacy of Hierarchical Census Data: An Optimization
Approach [53.29035917495491]
国勢調査局(Census Bureaus)は、個人に関する機密情報を明らかにすることなく、大人口に関する社会経済的データをまとめて公開することに興味を持っている。
最近の出来事では、これらの組織が直面しているプライバシー上の課題がいくつか特定されている。
本稿では,階層的な個人数を解放する新たな差分プライバシ機構を提案する。
論文 参考訳(メタデータ) (2020-06-28T18:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。