論文の概要: eXIAA: eXplainable Injections for Adversarial Attack
- arxiv url: http://arxiv.org/abs/2511.10088v1
- Date: Fri, 14 Nov 2025 01:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.688844
- Title: eXIAA: eXplainable Injections for Adversarial Attack
- Title(参考訳): eXIAA:eXplainable Injections for Adversarial Attack
- Authors: Leonardo Pesce, Jiawen Wei, Gianmarco Mengaldo,
- Abstract要約: ポストホックな説明可能な人工知能(XAI)のための新しいブラックボックスモデル非依存的敵攻撃を示す。
攻撃の目的は、人間の目によって発見されず、予測されたクラスを維持しながら、元の説明を変更することである。
提案手法の低要件は、現在の説明可能性手法において重大な脆弱性を露呈し、安全クリティカルなアプリケーションにおける信頼性に関する懸念を提起する。
- 参考スコア(独自算出の注目度): 3.512208543873998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-hoc explainability methods are a subset of Machine Learning (ML) that aim to provide a reason for why a model behaves in a certain way. In this paper, we show a new black-box model-agnostic adversarial attack for post-hoc explainable Artificial Intelligence (XAI), particularly in the image domain. The goal of the attack is to modify the original explanations while being undetected by the human eye and maintain the same predicted class. In contrast to previous methods, we do not require any access to the model or its weights, but only to the model's computed predictions and explanations. Additionally, the attack is accomplished in a single step while significantly changing the provided explanations, as demonstrated by empirical evaluation. The low requirements of our method expose a critical vulnerability in current explainability methods, raising concerns about their reliability in safety-critical applications. We systematically generate attacks based on the explanations generated by post-hoc explainability methods (saliency maps, integrated gradients, and DeepLIFT SHAP) for pretrained ResNet-18 and ViT-B16 on ImageNet. The results show that our attacks could lead to dramatically different explanations without changing the predictive probabilities. We validate the effectiveness of our attack, compute the induced change based on the explanation with mean absolute difference, and verify the closeness of the original image and the corrupted one with the Structural Similarity Index Measure (SSIM).
- Abstract(参考訳): ポストホックな説明可能性メソッドは機械学習(ML)のサブセットであり、モデルが特定の方法で振る舞う理由を提供する。
本稿では、特に画像領域において、ポストホック説明可能な人工知能(XAI)に対するブラックボックスモデル非依存の新たな敵攻撃を示す。
攻撃の目的は、人間の目によって発見されず、予測されたクラスを維持しながら、元の説明を変更することである。
従来の手法とは対照的に、モデルや重みへのいかなるアクセスも必要とせず、モデルが計算した予測や説明にのみアクセスする。
さらに、この攻撃は、実証的な評価によって示されるように、提供された説明を著しく変更しながら、単一のステップで達成される。
提案手法の低要件は、現在の説明可能性手法において重大な脆弱性を露呈し、安全クリティカルなアプリケーションにおける信頼性に関する懸念を提起する。
我々は、ImageNet上のResNet-18とViT-B16の事前訓練に対して、ポストホック説明可能性法(信頼性マップ、統合勾配、DeepLIFT SHAP)によって生成された説明に基づいて攻撃を系統的に生成する。
その結果、我々の攻撃は予測確率を変化させることなく、劇的に異なる説明に繋がる可能性が示唆された。
我々は,攻撃の有効性を検証し,平均的な絶対差による説明に基づいて誘導的変化を計算し,元の画像と破損した画像の近接度を構造的類似度指標尺度(SSIM)で検証する。
関連論文リスト
- Explainable but Vulnerable: Adversarial Attacks on XAI Explanation in Cybersecurity Applications [0.21485350418225244]
説明可能な人工知能(XAI)は、ブラックボックスモデルの決定を精査する能力を持つ機械学習(ML)研究者を支援している。
XAIメソッド自体は、説明モジュールから期待された結果を操作する、攻撃後の攻撃の犠牲になる可能性がある。
論文 参考訳(メタデータ) (2025-10-04T02:07:58Z) - Fooling SHAP with Output Shuffling Attacks [4.873272103738719]
SHAPのような説明可能なAI(XAI)メソッドは、ブラックボックスモデルにおける特徴属性の発見に役立つ。
敵攻撃は XAI メソッドの検出を覆すことができる。
我々は、データに依存しないシャッフル攻撃と呼ばれる新たな攻撃群を提案する。
論文 参考訳(メタデータ) (2024-08-12T21:57:18Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors [2.1165011830664673]
ブラディング攻撃は、機械学習アルゴリズムの予測と説明を大きく変える可能性がある。
我々は統計的解析を利用して、目隠し攻撃後のCNN内のCNN重みの変化を明らかにする。
本研究では,評価段階における攻撃の有効性を限定する手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T09:36:10Z) - Black-box Attacks on Image Activity Prediction and its Natural Language
Explanations [27.301741710016223]
説明可能なAI(XAI)手法は、ディープニューラルネットワークの決定プロセスを記述することを目的としている。
Visual XAIメソッドは、ホワイトボックスやグレイボックスの攻撃に弱いことが示されている。
我々は,最終出力にのみアクセスすることで,行動認識モデルの説明を操作できる敵画像を作成することができることを示す。
論文 参考訳(メタデータ) (2023-09-30T21:56:43Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Meta Adversarial Perturbations [66.43754467275967]
メタ逆境摂動(MAP)の存在を示す。
MAPは1段階の上昇勾配更新によって更新された後、自然画像を高い確率で誤分類する。
これらの摂動は画像に依存しないだけでなく、モデルに依存しないものであり、単一の摂動は見えないデータポイントと異なるニューラルネットワークアーキテクチャにまたがってうまく一般化される。
論文 参考訳(メタデータ) (2021-11-19T16:01:45Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。