論文の概要: Explainable but Vulnerable: Adversarial Attacks on XAI Explanation in Cybersecurity Applications
- arxiv url: http://arxiv.org/abs/2510.03623v1
- Date: Sat, 04 Oct 2025 02:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.160154
- Title: Explainable but Vulnerable: Adversarial Attacks on XAI Explanation in Cybersecurity Applications
- Title(参考訳): 説明可能なが脆弱性:サイバーセキュリティアプリケーションにおけるXAI説明に対する敵対的攻撃
- Authors: Maraz Mia, Mir Mehedi A. Pritom,
- Abstract要約: 説明可能な人工知能(XAI)は、ブラックボックスモデルの決定を精査する能力を持つ機械学習(ML)研究者を支援している。
XAIメソッド自体は、説明モジュールから期待された結果を操作する、攻撃後の攻撃の犠牲になる可能性がある。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Explainable Artificial Intelligence (XAI) has aided machine learning (ML) researchers with the power of scrutinizing the decisions of the black-box models. XAI methods enable looking deep inside the models' behavior, eventually generating explanations along with a perceived trust and transparency. However, depending on any specific XAI method, the level of trust can vary. It is evident that XAI methods can themselves be a victim of post-adversarial attacks that manipulate the expected outcome from the explanation module. Among such attack tactics, fairwashing explanation (FE), manipulation explanation (ME), and backdoor-enabled manipulation attacks (BD) are the notable ones. In this paper, we try to understand these adversarial attack techniques, tactics, and procedures (TTPs) on explanation alteration and thus the effect on the model's decisions. We have explored a total of six different individual attack procedures on post-hoc explanation methods such as SHAP (SHapley Additive exPlanations), LIME (Local Interpretable Model-agnostic Explanation), and IG (Integrated Gradients), and investigated those adversarial attacks in cybersecurity applications scenarios such as phishing, malware, intrusion, and fraudulent website detection. Our experimental study reveals the actual effectiveness of these attacks, thus providing an urgency for immediate attention to enhance the resiliency of XAI methods and their applications.
- Abstract(参考訳): 説明可能な人工知能(XAI)は、ブラックボックスモデルの決定を精査する能力を持つ機械学習(ML)研究者を支援している。
XAIメソッドはモデルの振る舞いの奥深くを探索し、最終的には信頼と透明性の認識とともに説明を生成する。
しかしながら、特定のXAI手法によって、信頼度は様々である。
XAI手法自体が,説明モジュールから期待される結果を操作する,先進攻撃の犠牲者となることは明らかである。
このような攻撃戦術の中で、フェアウォッシング説明(FE)、操作説明(ME)、バックドア対応操作攻撃(BD)が顕著である。
本稿では,これらの敵攻撃手法,戦術,手順(TTP)について,説明修正について理解し,モデルの決定に与える影響について考察する。
我々は、SHAP(SHapley Additive exPlanations)、LIME(Local Interpretable Model-Agnostic Explanation)、IG(Integrated Gradients)などのポストホックな説明手法に関する6種類の個別攻撃手順を調査し、フィッシング、マルウェア、侵入、不正ウェブサイト検出などのサイバーセキュリティアプリケーションシナリオにおける敵攻撃について検討した。
実験により,これらの攻撃の有効性が明らかとなり,XAI法とその応用のレジリエンスを高めるための緊急対応が図られた。
関連論文リスト
- Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Adversarial attacks and defenses in explainable artificial intelligence: A survey [9.769695768744421]
敵機械学習(AdvML)の最近の進歩は、最先端の説明手法の限界と脆弱性を強調している。
本調査は、機械学習モデルの説明に対する敵攻撃に関する総合的な研究の概要を提供する。
論文 参考訳(メタデータ) (2023-06-06T09:53:39Z) - AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models [1.8752655643513647]
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。
そこで本研究では,ブラックボックス設定下での解釈可能なモデルに対して,新たなリトレーニング(学習)に基づくモデル抽出攻撃フレームワークを提案する。
AUTOLYCUSは非常に効果的で、最先端の攻撃に比べてクエリが大幅に少ないことが示される。
論文 参考訳(メタデータ) (2023-02-04T13:23:39Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。