論文の概要: Noisy Data Meets Privacy: Training Local Models with Post-Processed Remote Queries
- arxiv url: http://arxiv.org/abs/2405.16361v2
- Date: Thu, 23 Jan 2025 19:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 20:40:39.404891
- Title: Noisy Data Meets Privacy: Training Local Models with Post-Processed Remote Queries
- Title(参考訳): Noisy Dataがプライバシと出会う - 後処理のリモートクエリによるローカルモデルのトレーニング
- Authors: Kexin Li, Aastha Mehta, David Lie,
- Abstract要約: LDPKiTは、プライベートデータ配信に合わせたプライバシ保護推論データセットを生成する。
Fashion-MNIST、SVHN、PathMNISTの医療データセットの実験は、LDPKiTがプライバシーを維持しながら有効性を向上させることを示した。
- 参考スコア(独自算出の注目度): 7.993286956508782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adoption of large cloud-based models for inference in privacy-sensitive domains, such as homeless care systems and medical imaging, raises concerns about end-user data privacy. A common solution is adding locally differentially private (LDP) noise to queries before transmission, but this often reduces utility. LDPKiT, which stands for Local Differentially-Private and Utility-Preserving Inference via Knowledge Transfer, addresses the concern by generating a privacy-preserving inference dataset aligned with the private data distribution. This dataset is used to train a reliable local model for inference on sensitive inputs. LDPKiT employs a two-layer noise injection framework that leverages LDP and its post-processing property to create a privacy-protected inference dataset. The first layer ensures privacy, while the second layer helps to recover utility by creating a sufficiently large dataset for subsequent local model extraction using noisy labels returned from a cloud model on privacy-protected noisy inputs. Our experiments on Fashion-MNIST, SVHN and PathMNIST medical datasets demonstrate that LDPKiT effectively improves utility while preserving privacy. Moreover, the benefits of using LDPKiT increase at higher, more privacy-protective noise levels. For instance, on SVHN, LDPKiT achieves similar inference accuracy with $\epsilon=1.25$ as it does with $\epsilon=2.0$, providing stronger privacy guarantees with less than a 2% drop in accuracy. Furthermore, we perform extensive sensitivity analyses to evaluate the impact of dataset sizes on LDPKiT's effectiveness and systematically analyze the latent space representations to offer a theoretical explanation for its accuracy improvements. Lastly, we qualitatively and quantitatively demonstrate that the type of knowledge distillation performed by LDPKiT is ethical and fundamentally distinct from adversarial model extraction attacks.
- Abstract(参考訳): ホームレスのケアシステムや医療画像など、プライバシに敏感なドメインの推論に大規模なクラウドベースのモデルを採用することで、エンドユーザデータのプライバシに関する懸念が高まっている。
一般的な解決策は、送信前のクエリにローカルに微分プライベート(LDP)ノイズを追加することである。
LDPKiT(Local Differentially-Private and Utility-Preserving Inference via Knowledge Transfer)は、プライバシ保護推論データセットをプライベートデータ配信に合わせて生成することで、この問題に対処する。
このデータセットは、センシティブな入力に対する推論のための信頼性の高いローカルモデルをトレーニングするために使用される。
LDPKiTは、LDPとその後処理プロパティを活用する2層ノイズ注入フレームワークを使用して、プライバシ保護された推論データセットを生成する。
第1のレイヤはプライバシを保証し、第2のレイヤは、プライバシ保護されたノイズ入力でクラウドモデルから返されるノイズラベルを使用して、その後のローカルモデル抽出のための十分な大規模なデータセットを作成することによって、ユーティリティの回復を支援する。
Fashion-MNIST,SVHN,PathMNISTの医療データセットを用いた実験により,LDPKiTはプライバシを保ちながら有効性を向上させることが示された。
さらに、LDPKiTを使用することの利点は、より高いプライバシー保護ノイズレベルにおいて増加する。
例えば、SVHNでは、LPPKiTは$\epsilon=1.25$で同様の推論精度を達成し、$\epsilon=2.0$で実現し、2%以下の精度でより強力なプライバシー保証を提供する。
さらに、LDPKiTの有効性に対するデータセットサイズの影響を評価するために、広範囲な感度解析を行い、潜在空間表現を体系的に分析し、その精度改善に関する理論的説明を提供する。
最後に, LDPKiTが行う知識蒸留の種類が, 敵モデル抽出攻撃と根本的に異なることを質的に定量的に, 定量的に示す。
関連論文リスト
- Dual Utilization of Perturbation for Stream Data Publication under Local Differential Privacy [10.07017446059039]
ローカルディファレンシャルプライバシ(LDP)が有望な標準として登場した。
ストリームデータにLDPを適用することは、大きなあるいは無限の値を含む場合が多いため、大きな課題となる。
本稿では、電流摂動結果を用いてその後の摂動過程を校正する反復摂動IPP法を提案する。
これら3つのアルゴリズムが差分プライバシーを$w$-eventで満たし、実用性を大幅に向上することを証明する。
論文 参考訳(メタデータ) (2025-04-21T09:51:18Z) - $(ε, δ)$-Differentially Private Partial Least Squares Regression [1.8666451604540077]
我々は,モデルに基づくデータのプライバシーを確保するために,$(epsilon, delta)$-differentially private PLS (edPLS)アルゴリズムを提案する。
実験により、EDPLSはトレーニングデータに固有の変動源を回復することを目的とした、効果的なプライバシー攻撃を施すことが示されている。
論文 参考訳(メタデータ) (2024-12-12T10:49:55Z) - Differentially Private Best-Arm Identification [14.916947598339988]
ベストアーム識別(BAI)問題は、データセンシティブなアプリケーションに徐々に使われている。
これらのアプリケーションによって引き起こされるデータプライバシの懸念に触発され、ローカルモデルと中央モデルの両方に一定の信頼を保ちながら、BAIの問題を研究する。
論文 参考訳(メタデータ) (2024-06-10T16:02:48Z) - A Generalized Shuffle Framework for Privacy Amplification: Strengthening Privacy Guarantees and Enhancing Utility [4.7712438974100255]
パーソナライズされたプライバシパラメータで$(epsilon_i,delta_i)$-PLDP設定をシャッフルする方法を示す。
shuffled $(epsilon_i,delta_i)$-PLDP process approximately saves $mu$-Gaussian Differential Privacy with mu = sqrtfrac2sum_i=1n frac1-delta_i1+eepsilon_i-max_ifrac1-delta_i1+e
論文 参考訳(メタデータ) (2023-12-22T02:31:46Z) - Privacy Constrained Fairness Estimation for Decision Trees [2.9906966931843093]
任意のAIモデルの公平さを測定するには、データセット内の個人の敏感な属性が必要である。
プライバシ・アウェア・フェアネス・オブ・ルール(PAFER)と呼ばれる新しい手法を提案する。
提案手法は,ラプラシアン機構を用いて,データセット内の個人のプライバシーを高い確度で保証しつつ,低い誤差でSPを推定できることを示す。
論文 参考訳(メタデータ) (2023-12-13T14:54:48Z) - Initialization Matters: Privacy-Utility Analysis of Overparameterized
Neural Networks [72.51255282371805]
我々は、最悪の近傍データセット上でのモデル分布間のKLばらつきのプライバシー境界を証明した。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
論文 参考訳(メタデータ) (2023-10-31T16:13:22Z) - On the Inherent Privacy Properties of Discrete Denoising Diffusion Models [17.773335593043004]
本稿では、離散拡散モデルに固有のプライバシー保護の先駆的な理論的探索について述べる。
我々のフレームワークは、トレーニングデータセット内の各データポイントの潜在的なプライバシー漏洩を解明する。
当社のバウンダリは、$$$サイズのデータポイントによるトレーニングが、プライバシー漏洩の急増につながっていることも示しています。
論文 参考訳(メタデータ) (2023-10-24T05:07:31Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - S-BDT: Distributed Differentially Private Boosted Decision Trees [1.4785572573908556]
S-BDT: a novel $(varepsilon,delta)$-differentially private distributed gradient boosted decision tree (GBDT) learner。
S-BDTは、非球面多変量ガウス雑音に依存することにより、より少ないノイズを使用する。
GBDTが異なるサブポピュレーションから派生したデータのストリームを学習している状況において、S-BDTはエプシロンの保存をさらに改善することを示す。
論文 参考訳(メタデータ) (2023-09-21T13:09:10Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - TAN Without a Burn: Scaling Laws of DP-SGD [70.7364032297978]
近年、ディープニューラルネットワーク(DNN)を訓練するための微分プライベートな手法が進歩している。
プライバシ分析とノイズのあるトレーニングの実験的振る舞いを分離し、最小限の計算要件でトレードオフを探索する。
我々は,提案手法をCIFAR-10とImageNetに適用し,特にImageNetの最先端性を,上位1点の精度で向上させる。
論文 参考訳(メタデータ) (2022-10-07T08:44:35Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Production of Categorical Data Verifying Differential Privacy:
Conception and Applications to Machine Learning [0.0]
差別化プライバシは、プライバシとユーティリティのトレードオフの定量化を可能にする正式な定義である。
ローカルDP(LDP)モデルでは、ユーザはデータをサーバに送信する前に、ローカルにデータをサニタイズすることができる。
いずれの場合も、微分プライベートなMLモデルは、非プライベートなモデルとほぼ同じユーティリティメトリクスを達成できると結論付けました。
論文 参考訳(メタデータ) (2022-04-02T12:50:14Z) - Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for
Private Learning [74.73901662374921]
差分プライベートモデルは、モデルが多数のトレーニング可能なパラメータを含む場合、ユーティリティを劇的に劣化させる。
偏微分プライベート深層モデルの精度向上のためのアルゴリズムemphGradient Embedding Perturbation (GEP)を提案する。
論文 参考訳(メタデータ) (2021-02-25T04:29:58Z) - Learning with User-Level Privacy [61.62978104304273]
ユーザレベルの差分プライバシー制約下での学習課題を,アルゴリズムを用いて解析する。
個々のサンプルのプライバシーのみを保証するのではなく、ユーザレベルのdpはユーザの貢献全体を保護します。
プライバシコストが$tau$に比例した$K$適応的に選択されたクエリのシーケンスにプライベートに答えるアルゴリズムを導き出し、私たちが検討する学習タスクを解決するためにそれを適用します。
論文 参考訳(メタデータ) (2021-02-23T18:25:13Z) - Improving Deep Learning with Differential Privacy using Gradient
Encoding and Denoising [36.935465903971014]
本稿では,差分プライバシー保証を伴う深層学習モデルの学習を目的とした。
我々の鍵となる手法は勾配をエンコードしてより小さなベクトル空間にマッピングすることである。
我々のメカニズムは最先端のDPSGDよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-22T16:33:14Z) - RDP-GAN: A R\'enyi-Differential Privacy based Generative Adversarial
Network [75.81653258081435]
GAN(Generative Adversarial Network)は,プライバシ保護の高い現実的なサンプルを生成する能力によって,近年注目を集めている。
しかし、医療記録や財務記録などの機密・私的な訓練例にGANを適用すると、個人の機密・私的な情報を漏らしかねない。
本稿では、学習中の損失関数の値にランダムノイズを慎重に付加することにより、GAN内の差分プライバシー(DP)を実現するR'enyi-differentially private-GAN(RDP-GAN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T09:51:02Z) - BUDS: Balancing Utility and Differential Privacy by Shuffling [3.618133010429131]
シャッフルやtextitBUDS によるユーティリティと差分プライバシーのバランスをとることは、クラウドソースの統計データベースへのアプローチである。
損失推定法とリスク最小化法を併用したワンホット符号化と反復シャッフル法により,新しいアルゴリズムを提案する。
バランスのとれたユーティリティとプライバシの実証テストの間、BUDSは$epsilon = 0.02$を生成します。
論文 参考訳(メタデータ) (2020-06-07T11:39:13Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。