論文の概要: DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing
- arxiv url: http://arxiv.org/abs/2411.16121v2
- Date: Sat, 14 Dec 2024 03:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:32.620826
- Title: DP-CDA: An Algorithm for Enhanced Privacy Preservation in Dataset Synthesis Through Randomized Mixing
- Title(参考訳): DP-CDA:ランダムミキシングによるデータセット合成におけるプライバシー保護の強化アルゴリズム
- Authors: Utsab Saha, Tanvir Muntakim Tonoy, Hafiz Imtiaz,
- Abstract要約: 有効なデータパブリッシングアルゴリズムであるemphDP-CDAを導入する。
提案アルゴリズムは、クラス固有の方法でデータをランダムに混合し、プライバシー保証を確保するために慎重に調整されたランダム性を誘導することにより、合成データセットを生成する。
以上の結果から,DP-CDAを用いた合成データセットは,同一のプライバシー要件下であっても,従来のデータパブリッシングアルゴリズムで生成したデータセットよりも優れた実用性が得られることが示唆された。
- 参考スコア(独自算出の注目度): 0.8739101659113155
- License:
- Abstract: In recent years, the growth of data across various sectors, including healthcare, security, finance, and education, has created significant opportunities for analysis and informed decision-making. However, these datasets often contain sensitive and personal information, which raises serious privacy concerns. Protecting individual privacy is crucial, yet many existing machine learning and data publishing algorithms struggle with high-dimensional data, facing challenges related to computational efficiency and privacy preservation. To address these challenges, we introduce an effective data publishing algorithm \emph{DP-CDA}. Our proposed algorithm generates synthetic datasets by randomly mixing data in a class-specific manner, and inducing carefully-tuned randomness to ensure formal privacy guarantees. Our comprehensive privacy accounting shows that DP-CDA provides a stronger privacy guarantee compared to existing methods, allowing for better utility while maintaining strict level of privacy. To evaluate the effectiveness of DP-CDA, we examine the accuracy of predictive models trained on the synthetic data, which serves as a measure of dataset utility. Importantly, we identify an optimal order of mixing that balances privacy guarantee with predictive accuracy. Our results indicate that synthetic datasets produced using the DP-CDA can achieve superior utility compared to those generated by traditional data publishing algorithms, even when subject to the same privacy requirements.
- Abstract(参考訳): 近年、医療、セキュリティ、金融、教育など様々な分野にわたるデータの成長が、分析と情報意思決定の大きな機会を生み出している。
しかし、これらのデータセットには機密情報や個人情報が含まれており、重大なプライバシー上の懸念を生じさせる。
個々のプライバシを保護することは重要であるが、多くの既存の機械学習とデータパブリッシングアルゴリズムは、計算効率とプライバシ保護に関連する課題に直面している。
これらの課題に対処するために、有効なデータパブリッシングアルゴリズム \emph{DP-CDA} を導入する。
提案アルゴリズムは、クラス固有の方法でデータをランダムに混合して合成データセットを生成し、適切なプライバシー保証を確保するために慎重に調整されたランダム性を誘導する。
我々の包括的なプライバシ会計は、DP-CDAが既存の方法よりも強力なプライバシ保証を提供し、厳格なプライバシレベルを維持しつつ、より良いユーティリティを実現することを示しています。
DP-CDAの有効性を評価するため,合成データに基づいてトレーニングした予測モデルの精度を検討した。
重要なことは、プライバシー保証と予測精度のバランスをとる最適な混合順序を特定することである。
この結果から,DP-CDAを用いた合成データセットは,同一のプライバシー要件下であっても,従来のデータパブリッシングアルゴリズムで生成したデータセットよりも優れた実用性が得られることが示唆された。
関連論文リスト
- SAFES: Sequential Privacy and Fairness Enhancing Data Synthesis for Responsible AI [3.0445044300235535]
SAFES(Sequential PrivAcy and Fairness Enhancing data synthesis procedure)を紹介する。
適切なプライバシ損失を得るために、SAFESの生成した合成データは、比較的実用性損失の少ないフェアネス指標を著しく改善した。
論文 参考訳(メタデータ) (2024-11-14T04:36:12Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Balancing Innovation and Privacy: Data Security Strategies in Natural Language Processing Applications [3.380276187928269]
本研究では,差分プライバシーに基づく新しいアルゴリズムを導入することにより,自然言語処理(NLP)におけるプライバシ保護に対処する。
差分プライバシー機構を導入することにより、ランダムノイズを付加しながらデータ解析結果の精度と信頼性を確保することができる。
提案アルゴリズムの有効性は、精度(0.89)、精度(0.85)、リコール(0.88)などの性能指標によって実証される。
論文 参考訳(メタデータ) (2024-10-11T06:05:10Z) - Synergizing Privacy and Utility in Data Analytics Through Advanced Information Theorization [2.28438857884398]
本稿では,高次元画像データに適したノイズ注入技術,ロバストな特徴抽出のための変分オートエンコーダ(VAE),構造化データプライバシに最適化された期待最大化(EM)アプローチの3つの高度なアルゴリズムを紹介する。
本手法は,機密属性と変換データ間の相互情報を著しく低減し,プライバシーを向上する。
この研究は、さまざまなデータタイプにまたがってプライバシ保護アルゴリズムをデプロイするための柔軟で効果的な戦略を提供することによって、この分野に貢献する。
論文 参考訳(メタデータ) (2024-04-24T22:58:42Z) - Provable Privacy with Non-Private Pre-Processing [56.770023668379615]
非プライベートなデータ依存前処理アルゴリズムによって生じる追加のプライバシーコストを評価するための一般的なフレームワークを提案する。
当社のフレームワークは,2つの新しい技術的概念を活用することにより,全体的なプライバシー保証の上限を確立する。
論文 参考訳(メタデータ) (2024-03-19T17:54:49Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Linear Model with Local Differential Privacy [0.225596179391365]
プライバシ保護技術は、さまざまな機関間で分散データを解析するために広く研究されている。
セキュアなマルチパーティ計算は、プライバシ保護のために、高いプライバシレベルで、高コストで広く研究されている。
マトリクスマスキング技術は、悪意のある敵に対するセキュアなスキームを暗号化するために用いられる。
論文 参考訳(メタデータ) (2022-02-05T01:18:00Z) - P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。
P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。
最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文 参考訳(メタデータ) (2020-06-22T09:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。