論文の概要: SHAPr: An Efficient and Versatile Membership Privacy Risk Metric for
Machine Learning
- arxiv url: http://arxiv.org/abs/2112.02230v1
- Date: Sat, 4 Dec 2021 03:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 17:59:20.803405
- Title: SHAPr: An Efficient and Versatile Membership Privacy Risk Metric for
Machine Learning
- Title(参考訳): shapr: 機械学習のための効率的で汎用的な会員プライバシリスクメトリクス
- Authors: Vasisht Duddu, Sebastian Szyller, N. Asokan
- Abstract要約: 機械学習(ML)モデルのトレーニングに使用されるデータは、センシティブである。
メンバーシップ推論攻撃(MIA)は、特定のデータレコードがMLモデルのトレーニングに使用されたかどうかを判断し、メンバーシップのプライバシを侵害するリスクを負う。
本稿では,Shapley値を用いて個別のトレーニングデータ記録の記憶を定量化するSHAPrを提案する。
- 参考スコア(独自算出の注目度): 13.952586561595473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data used to train machine learning (ML) models can be sensitive. Membership
inference attacks (MIAs), attempting to determine whether a particular data
record was used to train an ML model, risk violating membership privacy. ML
model builders need a principled definition of a metric that enables them to
quantify the privacy risk of (a) individual training data records, (b)
independently of specific MIAs, (c) efficiently. None of the prior work on
membership privacy risk metrics simultaneously meets all of these criteria.
We propose such a metric, SHAPr, which uses Shapley values to quantify a
model's memorization of an individual training data record by measuring its
influence on the model's utility. This memorization is a measure of the
likelihood of a successful MIA.
Using ten benchmark datasets, we show that SHAPr is effective (precision:
0.94$\pm 0.06$, recall: 0.88$\pm 0.06$) in estimating susceptibility of a
training data record for MIAs, and is efficient (computable within minutes for
smaller datasets and in ~90 minutes for the largest dataset).
SHAPr is also versatile in that it can be used for other purposes like
assessing fairness or assigning valuation for subsets of a dataset. For
example, we show that SHAPr correctly captures the disproportionate
vulnerability of different subgroups to MIAs.
Using SHAPr, we show that the membership privacy risk of a dataset is not
necessarily improved by removing high risk training data records, thereby
confirming an observation from prior work in a significantly extended setting
(in ten datasets, removing up to 50% of data).
- Abstract(参考訳): 機械学習(ML)モデルのトレーニングに使用されるデータは、センシティブである。
メンバーシップ推論攻撃(MIA)は、特定のデータレコードがMLモデルのトレーニングに使用されたかどうかを判断し、メンバーシップのプライバシを侵害するリスクを負う。
MLモデルビルダーは、プライバシリスクの定量化を可能にするメトリクスの原則定義を必要とする。
(a)個別のトレーニングデータ記録
(b)特定のMIAとは独立して
(c)効率が良い。
メンバーシップのプライバシーリスクメトリクスに関する以前の作業は、これらすべての基準を同時に満たしていない。
そこで本研究では,shapley値を用いてモデルの実用性への影響を計測し,個々のトレーニングデータ記録の記憶を定量化する指標であるshaprを提案する。
この記憶は、MIAが成功する可能性の尺度である。
10のベンチマークデータセットを使用して、SHAPrが有効である(精度: 0.94$\pm 0.06$、リコール: 0.88$\pm 0.06$)ことを示し、MIAのトレーニングデータレコードの感受性を推定し、効率的である(より小さなデータセットでは数分以内、最大データセットでは約90分)。
SHAPrは、フェアネスの評価やデータセットのサブセットのバリュエーションの割り当てなど、他の目的にも使用することができる。
例えば、SHAPrがMIAに対して異なるサブグループの不均等な脆弱性を正しく捉えていることを示す。
SHAPrを用いて、高いリスクトレーニングデータレコードを削除することにより、データセットのメンバシッププライバシリスクが必ずしも改善されないことを示し、これにより、前の作業から大幅に拡張された設定(10データセットで最大50%のデータを削除)で観察することを確認する。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Range Membership Inference Attacks [17.28638946021444]
本研究では,RaMIA(Ra Range Membering Inference attack)のクラスを導入し,モデルが特定の範囲の任意のデータに対してトレーニングされたかどうかを検証した。
各種データ上でのMIAよりも,プライバシ損失をより正確に,包括的に捉えることができることを示す。
論文 参考訳(メタデータ) (2024-08-09T15:39:06Z) - Lost in the Averages: A New Specific Setup to Evaluate Membership Inference Attacks Against Machine Learning Models [6.343040313814916]
メンバーシップ推論攻撃(MIAs)は、機械学習(ML)モデルの妥当性を評価するために使用され、個々のレコードを記憶する。
MLモデルに対するMIAの評価設定を新たに提案する。
現在設定されているリスク見積は、多くのレコードが低いリスクとして誤って分類されていることを示しています。
論文 参考訳(メタデータ) (2024-05-24T10:37:38Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。