論文の概要: On the amplification of security and privacy risks by post-hoc
explanations in machine learning models
- arxiv url: http://arxiv.org/abs/2206.14004v1
- Date: Tue, 28 Jun 2022 13:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 14:35:11.210789
- Title: On the amplification of security and privacy risks by post-hoc
explanations in machine learning models
- Title(参考訳): 機械学習モデルにおけるポストホック説明によるセキュリティとプライバシリスクの増幅について
- Authors: Pengrui Quan, Supriyo Chakraborty, Jeya Vikranth Jeyakumar, Mani
Srivastava
- Abstract要約: インプットディメンションを重要あるいは関連性に応じて強調するポストホックな説明方法もまた、セキュリティとプライバシを弱める情報を漏洩させる。
我々は,同じ成功率のクエリ数を10倍に削減する,説明誘導型ブラックボックス回避攻撃を提案する。
本研究では, 推定勾配の総分散の低減として, 説明からの逆効果を定量化できることを示す。
- 参考スコア(独自算出の注目度): 7.564511776742979
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A variety of explanation methods have been proposed in recent years to help
users gain insights into the results returned by neural networks, which are
otherwise complex and opaque black-boxes. However, explanations give rise to
potential side-channels that can be leveraged by an adversary for mounting
attacks on the system. In particular, post-hoc explanation methods that
highlight input dimensions according to their importance or relevance to the
result also leak information that weakens security and privacy. In this work,
we perform the first systematic characterization of the privacy and security
risks arising from various popular explanation techniques. First, we propose
novel explanation-guided black-box evasion attacks that lead to 10 times
reduction in query count for the same success rate. We show that the
adversarial advantage from explanations can be quantified as a reduction in the
total variance of the estimated gradient. Second, we revisit the membership
information leaked by common explanations. Contrary to observations in prior
studies, via our modified attacks we show significant leakage of membership
information (above 100% improvement over prior results), even in a much
stricter black-box setting. Finally, we study explanation-guided model
extraction attacks and demonstrate adversarial gains through a large reduction
in query count.
- Abstract(参考訳): 近年、ニューラルネットワークによって返される結果に対する洞察を得るために、さまざまな説明方法が提案されている。
しかし、説明によって潜在的なサイドチャネルが生まれ、敵がシステムへの攻撃を行うのに利用できる。
特に、入力の寸法を重要あるいは関連性に応じて強調するポストホックな説明法では、セキュリティとプライバシを弱める情報も漏洩する。
本研究は,様々な一般的な説明手法から生じるプライバシとセキュリティリスクを体系的に評価する最初の手法である。
まず,同じ成功率で10倍のクエリ数削減につながる,説明付きブラックボックス回避攻撃を提案する。
本研究では, 推定勾配の総分散の低減として, 説明からの逆効果を定量化できることを示す。
第2に,共通説明から漏れた会員情報を再検討する。
先行研究の観察とは対照的に、我々の修正攻撃により、より厳格なブラックボックス設定であっても、メンバーシップ情報(以前の結果よりも100%改善されている)が重大な漏洩を示す。
最後に,説明誘導モデル抽出攻撃について検討し,クエリカウントの大幅な削減による敵意の獲得を実証する。
関連論文リスト
- Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation [4.332441337407564]
我々は,会員推論攻撃に対する感受性と,蒸留による攻撃を盗む機能に対する脆弱性との関係について検討する。
我々は,ブラックボックスニューラルネットワークに対するメンバシップ推論攻撃に対する蒸留誘導型アプローチであるGLiRAを提案する。
提案手法は,複数の画像分類データセットおよびモデルにまたがって評価され,知識蒸留によって誘導された場合の確率比攻撃が,ブラックボックス設定における最先端の会員推論攻撃よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T08:52:04Z) - Explaining Predictive Uncertainty by Exposing Second-Order Effects [13.83164409095901]
本稿では,2次効果に基づく予測不確実性を説明する新しい手法を提案する。
提案手法は一般に適用可能であり,一般的な帰属手法を強力な二次不確実性説明器に変換することができる。
論文 参考訳(メタデータ) (2024-01-30T21:02:21Z) - The privacy issue of counterfactual explanations: explanation linkage
attacks [0.0]
本稿では、インスタンスベースの戦略をデプロイして、偽説明を見つける際に発生する説明リンク攻撃について紹介する。
このような攻撃に対抗するため、我々はk匿名の偽物説明を提案し、これらのk匿名の偽物説明の有効性を評価するための新しい指標として純粋性を導入する。
この結果から,データセット全体ではなく,k-匿名で説明を行うことが,説明の質に有益であることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T15:44:19Z) - Protecting Split Learning by Potential Energy Loss [70.81375125791979]
我々は、分割学習の前方埋め込みからのプライバシー漏洩に焦点を当てる。
我々は、前方埋め込みをより「複雑化」させるためのエネルギー損失の可能性を提案する。
論文 参考訳(メタデータ) (2022-10-18T06:21:11Z) - Private Graph Extraction via Feature Explanations [0.7442906193848509]
グラフ再構成攻撃によるグラフ機械学習におけるプライバシと解釈可能性の相互作用について検討する。
ポストホックな特徴説明の付加的な知識がこれらの攻撃の成功率を大幅に向上させることを示す。
本稿では,攻撃成功率を大幅に低減するランダム化応答機構に基づく防御手法を提案する。
論文 参考訳(メタデータ) (2022-06-29T15:47:34Z) - Aurora Guard: Reliable Face Anti-Spoofing via Mobile Lighting System [103.5604680001633]
紙写真やデジタルビデオの高解像度レンダリングリプレイに対する反偽造は、未解決の問題だ。
オーロラガード(Aurora Guard, AG)と呼ばれる, シンプルだが効果的な顔保護システムを提案する。
論文 参考訳(メタデータ) (2021-02-01T09:17:18Z) - Local Black-box Adversarial Attacks: A Query Efficient Approach [64.98246858117476]
アドリアックは、セキュリティに敏感なシナリオにおけるディープニューラルネットワークの適用を脅かしている。
ブラックボックス攻撃における限られたクエリ内でのみクリーンな例の識別領域を摂動させる新しいフレームワークを提案する。
攻撃成功率の高いブラックボックス摂動時のクエリ効率を大幅に改善できることを示すため,広範な実験を行った。
論文 参考訳(メタデータ) (2021-01-04T15:32:16Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。