論文の概要: Membership Inference Attacks against Language Models via Neighbourhood
Comparison
- arxiv url: http://arxiv.org/abs/2305.18462v1
- Date: Mon, 29 May 2023 07:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:47:32.564366
- Title: Membership Inference Attacks against Language Models via Neighbourhood
Comparison
- Title(参考訳): 近隣比較による言語モデルに対する会員推測攻撃
- Authors: Justus Mattern, Fatemehsadat Mireshghallah, Zhijing Jin, Bernhard
Sch\"olkopf, Mrinmaya Sachan, Taylor Berg-Kirkpatrick
- Abstract要約: メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。
近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。
より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
- 参考スコア(独自算出の注目度): 45.086816556309266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership Inference attacks (MIAs) aim to predict whether a data sample was
present in the training data of a machine learning model or not, and are widely
used for assessing the privacy risks of language models. Most existing attacks
rely on the observation that models tend to assign higher probabilities to
their training samples than non-training points. However, simple thresholding
of the model score in isolation tends to lead to high false-positive rates as
it does not account for the intrinsic complexity of a sample. Recent work has
demonstrated that reference-based attacks which compare model scores to those
obtained from a reference model trained on similar data can substantially
improve the performance of MIAs. However, in order to train reference models,
attacks of this kind make the strong and arguably unrealistic assumption that
an adversary has access to samples closely resembling the original training
data. Therefore, we investigate their performance in more realistic scenarios
and find that they are highly fragile in relation to the data distribution used
to train reference models. To investigate whether this fragility provides a
layer of safety, we propose and evaluate neighbourhood attacks, which compare
model scores for a given sample to scores of synthetically generated neighbour
texts and therefore eliminate the need for access to the training data
distribution. We show that, in addition to being competitive with
reference-based attacks that have perfect knowledge about the training data
distribution, our attack clearly outperforms existing reference-free attacks as
well as reference-based attacks with imperfect knowledge, which demonstrates
the need for a reevaluation of the threat model of adversarial attacks.
- Abstract(参考訳): 会員推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としており、言語モデルのプライバシーリスクを評価するために広く利用されている。
既存の攻撃のほとんどは、モデルがトレーニングサンプルに非トレーニングポイントよりも高い確率を割り当てる傾向にあるという観察に依存している。
しかし、モデルスコアの分離による単純な閾値付けは、サンプルの本質的な複雑さを考慮しないため、高い偽陽性率をもたらす傾向にある。
近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。
しかし、参照モデルをトレーニングするために、このような攻撃は、敵が元のトレーニングデータとよく似たサンプルにアクセスできるという強い非現実的な仮定をもたらす。
したがって、より現実的なシナリオでその性能を調査し、参照モデルのトレーニングに使用されるデータ分散に関して非常に脆弱であることを見出します。
筆者らは,この脆弱性が安全性の層を提供するかどうかを検討するために,与えられたサンプルのモデルスコアと合成した隣接テキストのスコアを比較し,トレーニングデータ配信へのアクセスの必要性を排除した近傍攻撃を提案し,評価する。
我々は,トレーニングデータ分布に関する完全な知識を持つ参照ベースの攻撃と競合することに加えて,既存の参照フリー攻撃と不完全な知識を持つ参照ベースの攻撃を明らかに上回っていることを示し,敵攻撃の脅威モデルの再評価の必要性を実証する。
関連論文リスト
- When Fairness Meets Privacy: Exploring Privacy Threats in Fair Binary Classifiers via Membership Inference Attacks [17.243744418309593]
本研究では,公平度差分結果に基づく公平度向上モデルに対する効率的なMIA手法を提案する。
また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。
論文 参考訳(メタデータ) (2023-11-07T10:28:17Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - OMG-ATTACK: Self-Supervised On-Manifold Generation of Transferable
Evasion Attacks [17.584752814352502]
Evasion Attacks (EA) は、入力データを歪ませることで、トレーニングされたニューラルネットワークの堅牢性をテストするために使用される。
本稿では, 自己教師型, 計算的経済的な手法を用いて, 対逆例を生成する手法を提案する。
我々の実験は、この手法が様々なモデル、目に見えないデータカテゴリ、さらには防御されたモデルで有効であることを一貫して実証している。
論文 参考訳(メタデータ) (2023-10-05T17:34:47Z) - Towards Poisoning Fair Representations [26.47681999979761]
本研究は、公正表現学習手法を攻撃した最初のデータ中毒フレームワークを提案する。
トレーニングデータに慎重に毒を盛ったサンプルを注入することにより、できるだけ多くの人口統計情報を含む不公平な表現を出力するモデルを誘導する。
ベンチマークフェアネスデータセットと最先端の公正表現学習モデルの実験は、我々の攻撃の優位性を実証している。
論文 参考訳(メタデータ) (2023-09-28T14:51:20Z) - Boosting Model Inversion Attacks with Adversarial Examples [26.904051413441316]
ブラックボックス設定において、より高い攻撃精度を達成できる学習ベースモデル反転攻撃のための新しい訓練パラダイムを提案する。
まず,攻撃モデルの学習過程を,意味的損失関数を追加して規則化する。
第2に、学習データに逆例を注入し、クラス関連部の多様性を高める。
論文 参考訳(メタデータ) (2023-06-24T13:40:58Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Delving into Data: Effectively Substitute Training for Black-box Attack [84.85798059317963]
本稿では,知識盗むプロセスで使用されるデータの分散設計に焦点をあてた,新しい視点代替トレーニングを提案する。
これら2つのモジュールの組み合わせにより、代替モデルとターゲットモデルの一貫性がさらに向上し、敵攻撃の有効性が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-26T07:26:29Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。