論文の概要: How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy
- arxiv url: http://arxiv.org/abs/2512.03238v1
- Date: Tue, 02 Dec 2025 21:14:39 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:12:05.598493
- Title: How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy
- Title(参考訳): DP-fy: 差分プライバシーで合成データを生成するための実践的ガイド
- Authors: Natalia Ponomareva, Zheng Xu, H. Brendan McMahan, Peter Kairouz, Lucas Rosenblatt, Vincent Cohen-Addad, Cristóbal Guzmán, Ryan McKenna, Galen Andrew, Alex Bie, Da Yu, Alex Kurakin, Morteza Zadimoghaddam, Sergei Vassilvitskii, Andreas Terzis,
- Abstract要約: Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
- 参考スコア(独自算出の注目度): 52.00934156883483
- License:
- Abstract: High quality data is needed to unlock the full potential of AI for end users. However finding new sources of such data is getting harder: most publicly-available human generated data will soon have been used. Additionally, publicly available data often is not representative of users of a particular system -- for example, a research speech dataset of contractors interacting with an AI assistant will likely be more homogeneous, well articulated and self-censored than real world commands that end users will issue. Therefore unlocking high-quality data grounded in real user interactions is of vital interest. However, the direct use of user data comes with significant privacy risks. Differential Privacy (DP) is a well established framework for reasoning about and limiting information leakage, and is a gold standard for protecting user privacy. The focus of this work, \emph{Differentially Private Synthetic data}, refers to synthetic data that preserves the overall trends of source data,, while providing strong privacy guarantees to individuals that contributed to the source dataset. DP synthetic data can unlock the value of datasets that have previously been inaccessible due to privacy concerns and can replace the use of sensitive datasets that previously have only had rudimentary protections like ad-hoc rule-based anonymization. In this paper we explore the full suite of techniques surrounding DP synthetic data, the types of privacy protections they offer and the state-of-the-art for various modalities (image, tabular, text and decentralized). We outline all the components needed in a system that generates DP synthetic data, from sensitive data handling and preparation, to tracking the use and empirical privacy testing. We hope that work will result in increased adoption of DP synthetic data, spur additional research and increase trust in DP synthetic data approaches.
- Abstract(参考訳): エンドユーザのためのAIの可能性を最大限に活用するには、高品質なデータが必要である。
しかし、そのようなデータの新たなソースを見つけることはますます難しくなっている。
例えば、AIアシスタントと対話する請負業者のスピーチデータセットは、エンドユーザが発行する現実のコマンドよりも、均質で、明瞭で、自己検閲されたものになる可能性が高い。
したがって、実際のユーザインタラクションに根ざした高品質なデータをアンロックすることは、非常に重要な関心事である。
しかし、ユーザーデータの直接利用には、重大なプライバシー上のリスクが伴う。
差別化プライバシ(DP)は情報漏洩を推論し、制限するための確立したフレームワークであり、ユーザのプライバシを保護するための金の標準である。
この研究の焦点である \emph{Differentially Private Synthetic data} は、ソースデータセットに寄与した個人に対して強力なプライバシー保証を提供しながら、ソースデータの全体的なトレンドを保存する合成データを指す。
DP合成データは、プライバシー上の懸念からこれまでアクセスできなかったデータセットの価値を解放し、アドホックなルールベースの匿名化のような初歩的な保護しか持たなかったセンシティブなデータセットの使用を置き換えることができる。
本稿では、DP合成データを取り巻く一連の技術、それらが提供するプライバシー保護の種類、および様々なモダリティ(画像、表、テキスト、分散化)の最先端技術について検討する。
DP合成データを生成するシステムに必要なすべてのコンポーネントについて概説する。
我々は,DP合成データの導入が促進され,さらなる研究が促進され,DP合成データへの信頼が高まることを願っている。
関連論文リスト
- Aim High, Stay Private: Differentially Private Synthetic Data Enables Public Release of Behavioral Health Information with High Utility [2.1715431485081593]
差別化プライバシ(DP)は、再識別リスクに対する正式な保証を提供する。
我々は、リングスタディ(LEMURS)を用いて測定されたライブ体験の第1相のDP合成データを生成する。
LEMURSデータセットの実際の使用状況から情報を得たフレームワークを用いて,合成データの有用性を評価する。
論文 参考訳(メタデータ) (2025-06-30T15:58:34Z) - Differentially Private Synthetic Data Release for Topics API Outputs [63.79476766779742]
当社では,Google ChromeのPrivacy Sandboxの一部として,1つのPrivacy-Preserving Ads API – Topics APIに注目しています。
実トピックAPIデータの再識別リスク特性と密に一致した、微分プライベートなデータセットを生成する。
これにより、外部の研究者がAPIを詳細に分析し、現実的な大規模データセットの事前および将来の作業の再現が可能になります。
論文 参考訳(メタデータ) (2025-06-30T13:46:57Z) - SMOTE-DP: Improving Privacy-Utility Tradeoff with Synthetic Data [13.699107354397286]
合成データ生成の適切なメカニズムにより、大きなユーティリティ損失を伴わずに、強力なプライバシ保護を実現することができることを示す。
我々は,このSMOTE-DP技術が,堅牢なプライバシ保護を保証するだけでなく,下流学習タスクにおいて有効性を維持する合成データを生成することを理論的および実証的な実証を通じて証明した。
論文 参考訳(メタデータ) (2025-06-02T17:27:10Z) - Synthetic Data Privacy Metrics [2.1213500139850017]
我々は、敵攻撃のシミュレーションを含む人気のある指標の長所と短所を概観する。
また、生成モデルを修正して、作成するデータのプライバシを高めるための現在のベストプラクティスについてもレビューします。
論文 参考訳(メタデータ) (2025-01-07T17:02:33Z) - Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。