論文の概要: Explaining the Model, Protecting Your Data: Revealing and Mitigating the Data Privacy Risks of Post-Hoc Model Explanations via Membership Inference
- arxiv url: http://arxiv.org/abs/2407.17663v1
- Date: Wed, 24 Jul 2024 22:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 15:47:21.278655
- Title: Explaining the Model, Protecting Your Data: Revealing and Mitigating the Data Privacy Risks of Post-Hoc Model Explanations via Membership Inference
- Title(参考訳): モデルの説明、データ保護:メンバーシップ推論によるホック後のモデル説明におけるデータプライバシリスクの調査と緩和
- Authors: Catherine Huang, Martin Pawelczyk, Himabindu Lakkaraju,
- Abstract要約: 特徴帰属説明に基づく2つの新たなメンバーシップ推論攻撃を提案する。
最適化された個人用微調整は、上記の攻撃の成功を著しく減少させることがわかった。
- 参考スコア(独自算出の注目度): 26.596877194118278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictive machine learning models are becoming increasingly deployed in high-stakes contexts involving sensitive personal data; in these contexts, there is a trade-off between model explainability and data privacy. In this work, we push the boundaries of this trade-off: with a focus on foundation models for image classification fine-tuning, we reveal unforeseen privacy risks of post-hoc model explanations and subsequently offer mitigation strategies for such risks. First, we construct VAR-LRT and L1/L2-LRT, two new membership inference attacks based on feature attribution explanations that are significantly more successful than existing explanation-leveraging attacks, particularly in the low false-positive rate regime that allows an adversary to identify specific training set members with confidence. Second, we find empirically that optimized differentially private fine-tuning substantially diminishes the success of the aforementioned attacks, while maintaining high model accuracy. We carry out a systematic empirical investigation of our 2 new attacks with 5 vision transformer architectures, 5 benchmark datasets, 4 state-of-the-art post-hoc explanation methods, and 4 privacy strength settings.
- Abstract(参考訳): 予測機械学習モデルは、機密性の高い個人データを含む高レベルのコンテキストにますますデプロイされている。
本研究では,画像分類の微調整の基礎モデルに焦点をあてて,ポストホックモデルの説明の予期せぬプライバシーリスクを明らかにするとともに,そのようなリスクに対する緩和戦略を提案する。
まず,VAR-LRTとL1/L2-LRTの2つの新たなメンバーシップ推論攻撃を構築した。
第2に、最適化された微分プライベート微調整が、上記の攻撃の成功を著しく減少させ、高いモデル精度を維持しながら、実証的に見いだす。
5つのヴィジュアルトランスフォーマーアーキテクチャ、5つのベンチマークデータセット、4つの最先端のポストホックな説明方法、4つのプライバシの強度設定による2つの新たな攻撃について、システマティックな調査を行っている。
関連論文リスト
- On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。
また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文 参考訳(メタデータ) (2024-11-15T17:11:42Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Visual Privacy Auditing with Diffusion Models [52.866433097406656]
本稿では,拡散モデル(DM)に基づくリコンストラクション攻撃を提案する。
本研究では,(1)実世界のデータ漏洩が再建の成功に大きく影響すること,(2)現在のリビルド境界がデータ先行によるリスクをうまくモデル化していないこと,(3)DMは,プライバシー漏洩を可視化するための効果的な監査ツールとして機能すること,を示す。
論文 参考訳(メタデータ) (2024-03-12T12:18:55Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Generative Models with Information-Theoretic Protection Against
Membership Inference Attacks [6.840474688871695]
GAN(Generative Adversarial Networks)のような深層生成モデルは、多様な高忠実度データサンプルを合成する。
GANは、訓練されたデータから個人情報を開示し、敵の攻撃を受けやすい可能性がある。
本稿では,生成モデルがトレーニングデータに過度に適合しないようにし,一般化性を奨励する情報理論的動機付け正規化項を提案する。
論文 参考訳(メタデータ) (2022-05-31T19:29:55Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Rethinking Privacy Preserving Deep Learning: How to Evaluate and Thwart
Privacy Attacks [31.34410250008759]
本稿では、モデル精度と、再構築、追跡、およびメンバーシップ攻撃によるプライバシ損失とのトレードオフを計測する。
実験の結果,モデル精度はベースライン機構と比較して平均5~20%向上した。
論文 参考訳(メタデータ) (2020-06-20T15:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。