論文の概要: Noisy Data Meets Privacy: Training Local Models with Post-Processed Remote Queries
- arxiv url: http://arxiv.org/abs/2405.16361v2
- Date: Thu, 23 Jan 2025 19:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:55:27.400997
- Title: Noisy Data Meets Privacy: Training Local Models with Post-Processed Remote Queries
- Title(参考訳): Noisy Dataがプライバシと出会う - 後処理のリモートクエリによるローカルモデルのトレーニング
- Authors: Kexin Li, Aastha Mehta, David Lie,
- Abstract要約: LDPKiTは、プライベートデータ配信に合わせたプライバシ保護推論データセットを生成する。
Fashion-MNIST、SVHN、PathMNISTの医療データセットの実験は、LDPKiTがプライバシーを維持しながら有効性を向上させることを示した。
- 参考スコア(独自算出の注目度): 7.993286956508782
- License:
- Abstract: The adoption of large cloud-based models for inference in privacy-sensitive domains, such as homeless care systems and medical imaging, raises concerns about end-user data privacy. A common solution is adding locally differentially private (LDP) noise to queries before transmission, but this often reduces utility. LDPKiT, which stands for Local Differentially-Private and Utility-Preserving Inference via Knowledge Transfer, addresses the concern by generating a privacy-preserving inference dataset aligned with the private data distribution. This dataset is used to train a reliable local model for inference on sensitive inputs. LDPKiT employs a two-layer noise injection framework that leverages LDP and its post-processing property to create a privacy-protected inference dataset. The first layer ensures privacy, while the second layer helps to recover utility by creating a sufficiently large dataset for subsequent local model extraction using noisy labels returned from a cloud model on privacy-protected noisy inputs. Our experiments on Fashion-MNIST, SVHN and PathMNIST medical datasets demonstrate that LDPKiT effectively improves utility while preserving privacy. Moreover, the benefits of using LDPKiT increase at higher, more privacy-protective noise levels. For instance, on SVHN, LDPKiT achieves similar inference accuracy with $\epsilon=1.25$ as it does with $\epsilon=2.0$, providing stronger privacy guarantees with less than a 2% drop in accuracy. Furthermore, we perform extensive sensitivity analyses to evaluate the impact of dataset sizes on LDPKiT's effectiveness and systematically analyze the latent space representations to offer a theoretical explanation for its accuracy improvements. Lastly, we qualitatively and quantitatively demonstrate that the type of knowledge distillation performed by LDPKiT is ethical and fundamentally distinct from adversarial model extraction attacks.
- Abstract(参考訳): ホームレスのケアシステムや医療画像など、プライバシに敏感なドメインの推論に大規模なクラウドベースのモデルを採用することで、エンドユーザデータのプライバシに関する懸念が高まっている。
一般的な解決策は、送信前のクエリにローカルに微分プライベート(LDP)ノイズを追加することである。
LDPKiT(Local Differentially-Private and Utility-Preserving Inference via Knowledge Transfer)は、プライバシ保護推論データセットをプライベートデータ配信に合わせて生成することで、この問題に対処する。
このデータセットは、センシティブな入力に対する推論のための信頼性の高いローカルモデルをトレーニングするために使用される。
LDPKiTは、LDPとその後処理プロパティを活用する2層ノイズ注入フレームワークを使用して、プライバシ保護された推論データセットを生成する。
第1のレイヤはプライバシを保証し、第2のレイヤは、プライバシ保護されたノイズ入力でクラウドモデルから返されるノイズラベルを使用して、その後のローカルモデル抽出のための十分な大規模なデータセットを作成することによって、ユーティリティの回復を支援する。
Fashion-MNIST,SVHN,PathMNISTの医療データセットを用いた実験により,LDPKiTはプライバシを保ちながら有効性を向上させることが示された。
さらに、LDPKiTを使用することの利点は、より高いプライバシー保護ノイズレベルにおいて増加する。
例えば、SVHNでは、LPPKiTは$\epsilon=1.25$で同様の推論精度を達成し、$\epsilon=2.0$で実現し、2%以下の精度でより強力なプライバシー保証を提供する。
さらに、LDPKiTの有効性に対するデータセットサイズの影響を評価するために、広範囲な感度解析を行い、潜在空間表現を体系的に分析し、その精度改善に関する理論的説明を提供する。
最後に, LDPKiTが行う知識蒸留の種類が, 敵モデル抽出攻撃と根本的に異なることを質的に定量的に, 定量的に示す。
関連論文リスト
- $(ε, δ)$-Differentially Private Partial Least Squares Regression [1.8666451604540077]
我々は,モデルに基づくデータのプライバシーを確保するために,$(epsilon, delta)$-differentially private PLS (edPLS)アルゴリズムを提案する。
実験により、EDPLSはトレーニングデータに固有の変動源を回復することを目的とした、効果的なプライバシー攻撃を施すことが示されている。
論文 参考訳(メタデータ) (2024-12-12T10:49:55Z) - Privacy-preserving datasets by capturing feature distributions with Conditional VAEs [0.11999555634662634]
条件付き変分オートエンコーダ(CVAE)は、大きな事前学習された視覚基盤モデルから抽出された特徴ベクトルに基づいて訓練される。
本手法は, 医用領域と自然画像領域の両方において, 従来のアプローチよりも優れている。
結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。
論文 参考訳(メタデータ) (2024-08-01T15:26:24Z) - Privacy Constrained Fairness Estimation for Decision Trees [2.9906966931843093]
任意のAIモデルの公平さを測定するには、データセット内の個人の敏感な属性が必要である。
プライバシ・アウェア・フェアネス・オブ・ルール(PAFER)と呼ばれる新しい手法を提案する。
提案手法は,ラプラシアン機構を用いて,データセット内の個人のプライバシーを高い確度で保証しつつ,低い誤差でSPを推定できることを示す。
論文 参考訳(メタデータ) (2023-12-13T14:54:48Z) - Initialization Matters: Privacy-Utility Analysis of Overparameterized
Neural Networks [72.51255282371805]
我々は、最悪の近傍データセット上でのモデル分布間のKLばらつきのプライバシー境界を証明した。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
論文 参考訳(メタデータ) (2023-10-31T16:13:22Z) - On the Inherent Privacy Properties of Discrete Denoising Diffusion Models [17.773335593043004]
本稿では、離散拡散モデルに固有のプライバシー保護の先駆的な理論的探索について述べる。
我々のフレームワークは、トレーニングデータセット内の各データポイントの潜在的なプライバシー漏洩を解明する。
当社のバウンダリは、$$$サイズのデータポイントによるトレーニングが、プライバシー漏洩の急増につながっていることも示しています。
論文 参考訳(メタデータ) (2023-10-24T05:07:31Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Production of Categorical Data Verifying Differential Privacy:
Conception and Applications to Machine Learning [0.0]
差別化プライバシは、プライバシとユーティリティのトレードオフの定量化を可能にする正式な定義である。
ローカルDP(LDP)モデルでは、ユーザはデータをサーバに送信する前に、ローカルにデータをサニタイズすることができる。
いずれの場合も、微分プライベートなMLモデルは、非プライベートなモデルとほぼ同じユーティリティメトリクスを達成できると結論付けました。
論文 参考訳(メタデータ) (2022-04-02T12:50:14Z) - RDP-GAN: A R\'enyi-Differential Privacy based Generative Adversarial
Network [75.81653258081435]
GAN(Generative Adversarial Network)は,プライバシ保護の高い現実的なサンプルを生成する能力によって,近年注目を集めている。
しかし、医療記録や財務記録などの機密・私的な訓練例にGANを適用すると、個人の機密・私的な情報を漏らしかねない。
本稿では、学習中の損失関数の値にランダムノイズを慎重に付加することにより、GAN内の差分プライバシー(DP)を実現するR'enyi-differentially private-GAN(RDP-GAN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T09:51:02Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。