論文の概要: SoK: Privacy-Preserving Data Synthesis
- arxiv url: http://arxiv.org/abs/2307.02106v1
- Date: Wed, 5 Jul 2023 08:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:34:51.251563
- Title: SoK: Privacy-Preserving Data Synthesis
- Title(参考訳): SoK:プライバシ保護データ合成
- Authors: Yuzheng Hu, Fan Wu, Qinbin Li, Yunhui Long, Gonzalo Munilla Garrido,
Chang Ge, Bolin Ding, David Forsyth, Bo Li, Dawn Song
- Abstract要約: 本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
- 参考スコア(独自算出の注目度): 72.92263073534899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the prevalence of data analysis grows, safeguarding data privacy has
become a paramount concern. Consequently, there has been an upsurge in the
development of mechanisms aimed at privacy-preserving data analyses. However,
these approaches are task-specific; designing algorithms for new tasks is a
cumbersome process. As an alternative, one can create synthetic data that is
(ideally) devoid of private information. This paper focuses on
privacy-preserving data synthesis (PPDS) by providing a comprehensive overview,
analysis, and discussion of the field. Specifically, we put forth a master
recipe that unifies two prominent strands of research in PPDS: statistical
methods and deep learning (DL)-based methods. Under the master recipe, we
further dissect the statistical methods into choices of modeling and
representation, and investigate the DL-based methods by different generative
modeling principles. To consolidate our findings, we provide comprehensive
reference tables, distill key takeaways, and identify open problems in the
existing literature. In doing so, we aim to answer the following questions:
What are the design principles behind different PPDS methods? How can we
categorize these methods, and what are the advantages and disadvantages
associated with each category? Can we provide guidelines for method selection
in different real-world scenarios? We proceed to benchmark several prominent
DL-based methods on the task of private image synthesis and conclude that
DP-MERF is an all-purpose approach. Finally, upon systematizing the work over
the past decade, we identify future directions and call for actions from
researchers.
- Abstract(参考訳): データ分析の普及に伴い、データのプライバシ保護が最重要課題となっている。
その結果、プライバシ保存データ分析を目的としたメカニズムの開発が急増している。
しかし、これらのアプローチはタスク固有であり、新しいタスクのためのアルゴリズムを設計するのは面倒なプロセスである。
代わりに、(理想的には)プライベート情報を欠く合成データを作成することができる。
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
具体的には,統計的手法と深層学習(DL)に基づく手法という,PPDSにおける2つの顕著な研究領域を統合するマスターレシピを提案する。
マスターレシピでは、統計的手法をモデリングと表現の選択に分割し、異なる生成的モデリング原理によるDLに基づく手法について検討する。
本研究は,本研究の総合的な参照テーブルとキーテイクアウトを蒸留し,既存の文献のオープンな問題を同定する。
異なるPPDSメソッドの背後にある設計原則は何ですか?
これらの手法をどのように分類すればいいのか、各カテゴリの利点と欠点は何か?
異なる現実のシナリオでメソッド選択のガイドラインを提供できますか?
我々は,プライベート画像合成の課題に対してdlベースの手法をいくつかベンチマークし,dp-merfは汎用的手法であると結論づける。
最後に,過去10年間の成果を体系化することで,今後の方向性を特定し,研究者の行動を求める。
関連論文リスト
- Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models [33.488331159912136]
インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
自然言語処理(NLP)とディープラーニングの分野において,データアセスメントと選択手法が提案されている。
本稿では,データアセスメントと選択に関する既存の文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
論文 参考訳(メタデータ) (2024-08-04T16:50:07Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Methods for generating and evaluating synthetic longitudinal patient
data: a systematic review [0.0]
本稿では, 合成長手患者データの生成と評価方法について, 体系的に検討する。
レビューはPRISMAガイドラインに準拠し、2022年末まで5つのデータベースからの文献をカバーしている。
本稿では,従来のシミュレーション手法から最新のディープラーニング手法まで,17の手法について述べる。
論文 参考訳(メタデータ) (2023-09-21T12:44:31Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Privacy preserving n-party scalar product protocol [0.0]
プライバシ保護機械学習は、データを公開することなく、分散データセット上のモデルのトレーニングを可能にする。
プライバシー保護スカラー製品プロトコルは、ベクトルのドット積を公開せずに可能にするもので、その汎用性の一例として人気がある。
本稿では,既存の2党方式に基づく任意の人数の当事者に対するプロトコルの一般化を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。