論文の概要: Inferring Sensitive Attributes from Model Explanations
- arxiv url: http://arxiv.org/abs/2208.09967v1
- Date: Sun, 21 Aug 2022 21:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:34:15.970183
- Title: Inferring Sensitive Attributes from Model Explanations
- Title(参考訳): モデル説明からの感性属性の推測
- Authors: Vasisht Duddu, Antoine Boutet
- Abstract要約: 入力に対する説明の依存は、機密性の高いユーザーデータに対するプライバシー上の懸念を引き起こす。
2つの脅威モデルにおけるモデル説明に対する最初の属性推論攻撃を設計する。
本研究では,双方の脅威モデルにおける説明から,攻撃者が機密属性の価値を正確に推測できることを示す。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model explanations provide transparency into a trained machine learning
model's blackbox behavior to a model builder. They indicate the influence of
different input attributes to its corresponding model prediction. The
dependency of explanations on input raises privacy concerns for sensitive user
data. However, current literature has limited discussion on privacy risks of
model explanations.
We focus on the specific privacy risk of attribute inference attack wherein
an adversary infers sensitive attributes of an input (e.g., race and sex) given
its model explanations. We design the first attribute inference attack against
model explanations in two threat models where model builder either (a) includes
the sensitive attributes in training data and input or (b) censors the
sensitive attributes by not including them in the training data and input.
We evaluate our proposed attack on four benchmark datasets and four
state-of-the-art algorithms. We show that an adversary can successfully infer
the value of sensitive attributes from explanations in both the threat models
accurately. Moreover, the attack is successful even by exploiting only the
explanations corresponding to sensitive attributes. These suggest that our
attack is effective against explanations and poses a practical threat to data
privacy.
On combining the model predictions (an attack surface exploited by prior
attacks) with explanations, we note that the attack success does not improve.
Additionally, the attack success on exploiting model explanations is better
compared to exploiting only model predictions. These suggest that model
explanations are a strong attack surface to exploit for an adversary.
- Abstract(参考訳): モデル説明は、トレーニングされた機械学習モデルのブラックボックスの振る舞いをモデルビルダーに提供する。
これらは、異なる入力属性が対応するモデル予測に与える影響を示す。
入力に対する説明の依存性は、センシティブなユーザデータに対するプライバシーの懸念を引き起こす。
しかし、現在の文献では、モデル説明のプライバシーリスクに関する議論は限られている。
本稿では, 属性推論攻撃の特定のプライバシーリスクに着目し, モデル的説明から, 相手が入力(例えば, 人種, 性別)のセンシティブな属性を推測する。
モデルビルダーのどちらでもモデル説明に対する最初の属性推論攻撃を2つの脅威モデルで設計する。
(a) 訓練データ及び入力の繊細な属性を含む、又は
b)訓練データ及び入力にそれらを含まないことにより、センシティブ属性を検閲する。
提案する4つのベンチマークデータセットと4つの最先端アルゴリズムに対する攻撃を評価する。
敵は、脅威モデルの両方の説明から、敏感な属性の値を正しく推測できることを実証する。
さらに、センシティブな属性に対応する説明のみを利用して攻撃を成功させる。
これらは、私たちの攻撃が説明に対して有効であり、データプライバシに実用的な脅威をもたらすことを示唆している。
モデル予測(前回の攻撃によって悪用された攻撃面)と説明を組み合わせることで、攻撃成功は改善されないことに留意する。
さらに、モデル説明を悪用する攻撃の成功は、モデル予測のみを悪用するよりも優れている。
これらのことから, モデル説明は敵に有利な攻撃面であることが示唆された。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - When Machine Learning Models Leak: An Exploration of Synthetic Training Data [0.0]
今後2年間で人や家庭が移転するかどうかを予測する機械学習モデルに対する攻撃について検討する。
この攻撃は、攻撃者がモデルをクエリして予測を得ることができ、モデルがトレーニングされたデータの限界分布が公開されていると仮定する。
モデルのトレーニングにおいて、元のデータを合成データに置き換えることが、攻撃者がどのように機密属性を推測できるかにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-10-12T23:47:22Z) - Analyzing the Impact of Adversarial Examples on Explainable Machine
Learning [0.31498833540989407]
敵対的攻撃は機械学習モデルに対する攻撃の一種であり、攻撃者は入力を意図的に修正し、モデルに誤った予測をさせる。
ディープラーニングモデルと敵攻撃の脆弱性に取り組むことで、モデルに望まないことを予測させるサンプルを非常に簡単に作成できることが示されています。
本研究では,テキスト分類問題に対する逆攻撃によるモデル解釈可能性の影響を解析する。
論文 参考訳(メタデータ) (2023-07-17T08:50:36Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Are Your Sensitive Attributes Private? Novel Model Inversion Attribute
Inference Attacks on Classification Models [22.569705869469814]
トレーニングデータ中のレコードの非感受性属性を敵が知る場合のモデル反転攻撃に着目した。
我々は,信頼性スコアに基づくモデル逆属性推論攻撃を考案し,その精度を著しく向上させる。
また、ターゲットレコードの他の(非感受性の)属性が敵に未知なシナリオにまで攻撃を拡大します。
論文 参考訳(メタデータ) (2022-01-23T21:27:20Z) - Property Inference Attacks on Convolutional Neural Networks: Influence
and Implications of Target Model's Complexity [1.2891210250935143]
プロパティ推論攻撃は、トレーニングデータセットに関する与えられたモデルプロパティをモデルの主な目標とは無関係に推測することを目的としている。
本稿では,ターゲットモデルの複雑性が攻撃の精度に及ぼす影響について検討する。
その結果,ターゲットモデルの複雑さとは無関係に,プライバシ侵害のリスクがあることが判明した。
論文 参考訳(メタデータ) (2021-04-27T09:19:36Z) - Black-box Model Inversion Attribute Inference Attacks on Classification
Models [32.757792981935815]
我々は、トレーニングデータのインスタンスに関する非感受性属性を敵が知るような、ある種類のモデル反転攻撃に焦点を当てる。
信頼モデルに基づく攻撃と信頼スコアに基づく攻撃の2つの新しいモデル反転属性推論攻撃を考案した。
2つの実際のデータセットでトレーニングされた決定木とディープニューラルネットワークの2種類の機械学習モデルに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-12-07T01:14:19Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。