論文の概要: Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning
- arxiv url: http://arxiv.org/abs/2307.01875v1
- Date: Tue, 4 Jul 2023 18:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 16:00:57.820666
- Title: Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning
- Title(参考訳): Approximate, Adapt, Anonymize (3A): 機械学習のためのトレーニングデータリリースを保存するプライバシー保護フレームワーク
- Authors: Tamas Madl, Weijie Xu, Olivia Choudhury, Matthew Howard
- Abstract要約: データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
- 参考スコア(独自算出の注目度): 3.29354893777827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of large amounts of informative data is crucial for
successful machine learning. However, in domains with sensitive information,
the release of high-utility data which protects the privacy of individuals has
proven challenging. Despite progress in differential privacy and generative
modeling for privacy-preserving data release in the literature, only a few
approaches optimize for machine learning utility: most approaches only take
into account statistical metrics on the data itself and fail to explicitly
preserve the loss metrics of machine learning models that are to be
subsequently trained on the generated data. In this paper, we introduce a data
release framework, 3A (Approximate, Adapt, Anonymize), to maximize data utility
for machine learning, while preserving differential privacy. We also describe a
specific implementation of this framework that leverages mixture models to
approximate, kernel-inducing points to adapt, and Gaussian differential privacy
to anonymize a dataset, in order to ensure that the resulting data is both
privacy-preserving and high utility. We present experimental evidence showing
minimal discrepancy between performance metrics of models trained on real
versus privatized datasets, when evaluated on held-out real data. We also
compare our results with several privacy-preserving synthetic data generation
models (such as differentially private generative adversarial networks), and
report significant increases in classification performance metrics compared to
state-of-the-art models. These favorable comparisons show that the presented
framework is a promising direction of research, increasing the utility of
low-risk synthetic data release for machine learning.
- Abstract(参考訳): 大量の情報データの提供は、機械学習の成功に不可欠である。
しかし、機密情報を持つドメインでは、個人のプライバシーを保護する高可用性データのリリースが困難であることが証明されている。
文学におけるプライバシー保護データリリースのための差分プライバシーと生成モデリングの進歩にもかかわらず、機械学習ユーティリティに最適化されるアプローチはごくわずかである。ほとんどのアプローチは、データ自体の統計メトリクスを考慮に入れ、その後生成されたデータでトレーニングされる機械学習モデルの損失メトリクスを明示的に保持することができない。
本稿では,データリリースフレームワークである3A(Approximate,Adapt,Anonymize)を導入し,差分プライバシーを保ちながら機械学習のデータユーティリティを最大化する。
また,このフレームワークの具体的実装として,混合モデルを利用して近似的,カーネル誘導型,ガウス微分プライバシを用いてデータセットの匿名化を行い,結果がプライバシ保存と高ユーティリティの両方であることを保証する。
本研究では,実データに基づく実データの評価において,実データと民営化データセットを用いたモデルの性能指標の最小差を示す実験的な証拠を示す。
また,いくつかのプライバシ保存型合成データ生成モデル(差分プライベート生成型adversarial networkなど)と比較し,最新モデルと比較して分類性能指標が著しく向上したことを報告する。
これらの好意的な比較は、提示されたフレームワークが研究の有望な方向であることを示し、機械学習のための低リスク合成データリリースの有用性を高めている。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Privacy-Preserving Debiasing using Data Augmentation and Machine Unlearning [3.049887057143419]
データ拡張は、メンバシップ推論攻撃のようなプライバシ攻撃に機械学習モデルを公開する。
我々は、既知の攻撃に対して証明可能な防御を提供しながら、データのバイアスを低減することができるデータ強化と機械学習の効果的な組み合わせを提案する。
論文 参考訳(メタデータ) (2024-04-19T21:54:20Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Synthetic Data: Applied Evaluations and
Enhancements [4.749807065324706]
異なるプライベートデータ合成は、個人の詳細を露出から保護する。
データ合成のための4つの差分私的生成対向ネットワークの評価を行った。
合成データを生成するためのアンサンブルに基づくモデリング手法であるQUAILを提案する。
論文 参考訳(メタデータ) (2020-11-11T04:03:08Z) - Privacy Enhancing Machine Learning via Removal of Unwanted Dependencies [21.97951347784442]
本稿では,特定のアプリケーションに送信される前に,データ中のセンシティブな情報を除去する,教師付き・敵対型学習手法の新たな変種について検討する。
提案手法は,エンド・ツー・エンド方式で特徴マッピングと予測モデルを同時に保存するプライバシー保護を最適化する。
モバイルセンシングと顔データを用いた実験結果から,予測モデルの実用性能の維持に成功し,予測性能の低下を招いた。
論文 参考訳(メタデータ) (2020-07-30T19:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。