論文の概要: Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models -- A review and challenges for practice
- arxiv url: http://arxiv.org/abs/2411.12451v1
- Date: Tue, 19 Nov 2024 12:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:07.767274
- Title: Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models -- A review and challenges for practice
- Title(参考訳): 生成型および予測型機械学習モデルの実証的プライバシ評価 - 実践のレビューと課題
- Authors: Flavio Hafner, Chang Sun,
- Abstract要約: 生成技術を展開する前に、生成した合成データに関連するプライバシーリスクを実証的に評価することが重要である。
本稿では,機械学習に基づく生成および予測モデルにおける経験的プライバシ評価の基礎となる概念と前提について概説する。
- 参考スコア(独自算出の注目度): 0.3069335774032178
- License:
- Abstract: Synthetic data generators, when trained using privacy-preserving techniques like differential privacy, promise to produce synthetic data with formal privacy guarantees, facilitating the sharing of sensitive data. However, it is crucial to empirically assess the privacy risks associated with the generated synthetic data before deploying generative technologies. This paper outlines the key concepts and assumptions underlying empirical privacy evaluation in machine learning-based generative and predictive models. Then, this paper explores the practical challenges for privacy evaluations of generative models for use cases with millions of training records, such as data from statistical agencies and healthcare providers. Our findings indicate that methods designed to verify the correct operation of the training algorithm are effective for large datasets, but they often assume an adversary that is unrealistic in many scenarios. Based on the findings, we highlight a crucial trade-off between the computational feasibility of the evaluation and the level of realism of the assumed threat model. Finally, we conclude with ideas and suggestions for future research.
- Abstract(参考訳): 合成データジェネレータは、差分プライバシーのようなプライバシ保護技術を使用してトレーニングされた場合、正式なプライバシ保証を備えた合成データを生成することを約束し、機密データの共有を容易にする。
しかし、生成技術を展開する前に、生成した合成データに関連するプライバシーリスクを実証的に評価することが重要である。
本稿では,機械学習に基づく生成および予測モデルにおける経験的プライバシ評価の基礎となる概念と前提について概説する。
そこで本稿では,統計機関や医療機関のデータなど,数百万のトレーニング記録を持つユースケースを対象とした生成モデルのプライバシ評価の実践的課題について検討する。
これらの結果から,トレーニングアルゴリズムの正しい動作を検証する手法は大規模データセットに有効であるが,多くのシナリオでは非現実的と仮定されることが多い。
本研究は,評価の計算可能性と想定脅威モデルの現実性との重大なトレードオフを明らかにする。
最後に,今後の研究のアイデアと提案をまとめる。
関連論文リスト
- Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Controllable Synthetic Clinical Note Generation with Privacy Guarantees [7.1366477372157995]
本稿では、PHI(Personal Health Information)を含む「クローン」データセットに対する新しい手法を提案する。
我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。
クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
論文 参考訳(メタデータ) (2024-09-12T07:38:34Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - SF-PATE: Scalable, Fair, and Private Aggregation of Teacher Ensembles [50.90773979394264]
本稿では、個人の機密情報のプライバシーを保護しつつ、差別的でない予測者の学習を可能にするモデルについて検討する。
提案モデルの主な特徴は、プライバシ保護とフェアモデルを作成するために、オフ・ザ・セルフと非プライベートフェアモデルの採用を可能にすることである。
論文 参考訳(メタデータ) (2022-04-11T14:42:54Z) - Privacy-preserving Generative Framework Against Membership Inference
Attacks [10.791983671720882]
我々は、メンバーシップ推論攻撃に対するプライバシー保護のための生成フレームワークを設計する。
まず、VAEモデルを通してソースデータを潜時空間にマッピングして潜時符号を取得し、次に潜時符号上でメートル法プライバシーを満たすノイズ処理を行い、最終的にVAEモデルを用いて合成データを再構成する。
実験により、新たに生成した合成データを用いて学習した機械学習モデルは、メンバーシップ推論攻撃に効果的に抵抗でき、高いユーティリティを維持できることを示した。
論文 参考訳(メタデータ) (2022-02-11T06:13:30Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。