論文の概要: Fooling SHAP with Output Shuffling Attacks
- arxiv url: http://arxiv.org/abs/2408.06509v1
- Date: Mon, 12 Aug 2024 21:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 19:07:10.122423
- Title: Fooling SHAP with Output Shuffling Attacks
- Title(参考訳): 出力シャッフルアタックによるSHAPの処理
- Authors: Jun Yuan, Aritra Dasgupta,
- Abstract要約: SHAPのような説明可能なAI(XAI)メソッドは、ブラックボックスモデルにおける特徴属性の発見に役立つ。
敵攻撃は XAI メソッドの検出を覆すことができる。
我々は、データに依存しないシャッフル攻撃と呼ばれる新たな攻撃群を提案する。
- 参考スコア(独自算出の注目度): 4.873272103738719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable AI~(XAI) methods such as SHAP can help discover feature attributions in black-box models. If the method reveals a significant attribution from a ``protected feature'' (e.g., gender, race) on the model output, the model is considered unfair. However, adversarial attacks can subvert the detection of XAI methods. Previous approaches to constructing such an adversarial model require access to underlying data distribution, which may not be possible in many practical scenarios. We relax this constraint and propose a novel family of attacks, called shuffling attacks, that are data-agnostic. The proposed attack strategies can adapt any trained machine learning model to fool Shapley value-based explanations. We prove that Shapley values cannot detect shuffling attacks. However, algorithms that estimate Shapley values, such as linear SHAP and SHAP, can detect these attacks with varying degrees of effectiveness. We demonstrate the efficacy of the attack strategies by comparing the performance of linear SHAP and SHAP using real-world datasets.
- Abstract(参考訳): SHAPのような説明可能なAI~(XAI)メソッドは、ブラックボックスモデルの特徴属性を発見するのに役立つ。
モデル出力上の '`保護された特徴'' (例、性別、人種) から重要な帰属を示す場合、そのモデルは不公平であるとみなされる。
しかし、敵攻撃はXAIの検出を覆すことができる。
このような敵モデルを構築するための従来のアプローチは、基礎となるデータ配信へのアクセスを必要とするが、多くの実践的なシナリオでは不可能である。
我々はこの制約を緩和し、データに依存しないシャッフル攻撃と呼ばれる新たな攻撃群を提案する。
提案された攻撃戦略は、トレーニングされた機械学習モデルを使用して、Shapley値ベースの説明を騙すことができる。
我々はShapley値がシャッフル攻撃を検出できないことを証明した。
しかし、線形SHAPやSHAPのようなShapley値を推定するアルゴリズムは、これらの攻撃を様々な効果で検出することができる。
実世界のデータセットを用いて,線形SHAPとSHAPの性能を比較することで,攻撃戦略の有効性を実証する。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z) - Feature Partitioning for Robust Tree Ensembles and their Certification
in Adversarial Scenarios [8.300942601020266]
モデルが安全な環境でトレーニングされ、テスト時に攻撃にさらされる、回避攻撃に焦点を当てます。
我々は,与えられたデータセットの特徴に基づく分割に基づいて基本モデルをトレーニングすることにより,堅牢なアンサンブルを構築するモデルに依存しない戦略を提案する。
我々のアルゴリズムは、アンサンブルのほとんどのモデルが攻撃者の影響を受けないことを保証する。
論文 参考訳(メタデータ) (2020-04-07T12:00:40Z) - Adversarial Detection and Correction by Matching Prediction
Distributions [0.0]
この検出器は、MNISTとFashion-MNISTに対するCarini-WagnerやSLIDEのような強力な攻撃をほぼ完全に中和する。
本手法は,攻撃者がモデルと防御の両方について十分な知識を持つホワイトボックス攻撃の場合においても,なおも敵の例を検出することができることを示す。
論文 参考訳(メタデータ) (2020-02-21T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。