論文の概要: Privacy Side Channels in Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2309.05610v2
- Date: Thu, 18 Jul 2024 08:12:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-20 00:02:04.594799
- Title: Privacy Side Channels in Machine Learning Systems
- Title(参考訳): 機械学習システムにおけるプライバシサイドチャネル
- Authors: Edoardo Debenedetti, Giorgio Severi, Nicholas Carlini, Christopher A. Choquette-Choo, Matthew Jagielski, Milad Nasr, Eric Wallace, Florian Tramèr,
- Abstract要約: プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
- 参考スコア(独自算出の注目度): 87.53240071195168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most current approaches for protecting privacy in machine learning (ML) assume that models exist in a vacuum. Yet, in reality, these models are part of larger systems that include components for training data filtering, output monitoring, and more. In this work, we introduce privacy side channels: attacks that exploit these system-level components to extract private information at far higher rates than is otherwise possible for standalone models. We propose four categories of side channels that span the entire ML lifecycle (training data filtering, input preprocessing, output post-processing, and query filtering) and allow for enhanced membership inference, data extraction, and even novel threats such as extraction of users' test queries. For example, we show that deduplicating training data before applying differentially-private training creates a side-channel that completely invalidates any provable privacy guarantees. We further show that systems which block language models from regenerating training data can be exploited to exfiltrate private keys contained in the training set--even if the model did not memorize these keys. Taken together, our results demonstrate the need for a holistic, end-to-end privacy analysis of machine learning systems.
- Abstract(参考訳): 機械学習(ML)におけるプライバシ保護の現在のアプローチのほとんどは、モデルが真空状態にあることを前提としている。
しかし実際には、これらのモデルは、データフィルタリングや出力監視などのトレーニングのためのコンポーネントを含む、大規模なシステムの一部です。
本研究では,これらのシステムレベルのコンポーネントを利用して,スタンドアロンモデルよりもはるかに高いレートでプライベート情報を抽出する攻撃について述べる。
機械学習のライフサイクル全体(データフィルタリング、入力前処理、出力後処理、クエリフィルタリング)にまたがるサイドチャネルの4つのカテゴリを提案する。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに、学習データ再生から言語モデルをブロックするシステムは、トレーニングセットに含まれる秘密鍵を抽出するために利用することができる。
この結果から,機械学習システムの総合的エンドツーエンドのプライバシ分析の必要性が示された。
関連論文リスト
- Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective [16.487545258246932]
現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
オーナシップ、アクセス制御、ライセンス情報などのメタデータは、トレーニング中に無視される。
情報フロー制御の観点から機械学習システムを記述する。
論文 参考訳(メタデータ) (2023-11-27T13:14:39Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - A Survey on Differential Privacy with Machine Learning and Future
Outlook [0.0]
差分プライバシーは、あらゆる攻撃や脆弱性から機械学習モデルを保護するために使用される。
本稿では,2つのカテゴリに分類される差分プライベート機械学習アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-11-19T14:20:53Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - Statistical Privacy Guarantees of Machine Learning Preprocessing
Techniques [1.198727138090351]
機械学習パイプラインのプライバシレベルを測定するために,統計的手法に基づくプライバシ違反検出フレームワークを適用した。
新たに作成されたフレームワークを適用して、不均衡なデータセットを扱う際に使用される再サンプリング技術によって、結果のモデルがよりプライバシーを漏洩することを示す。
論文 参考訳(メタデータ) (2021-09-06T14:08:47Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - Trade-offs between membership privacy & adversarially robust learning [13.37805637358556]
標準モデルがロバストモデルよりもはるかに過度に適合する設定を特定します。
オーバーフィッティングの度合いは、トレーニングに利用可能なデータの量に依存する。
論文 参考訳(メタデータ) (2020-06-08T14:20:12Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。