論文の概要: Explainable but Vulnerable: Adversarial Attacks on XAI Explanation in Cybersecurity Applications
- arxiv url: http://arxiv.org/abs/2510.03623v1
- Date: Sat, 04 Oct 2025 02:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.160154
- Title: Explainable but Vulnerable: Adversarial Attacks on XAI Explanation in Cybersecurity Applications
- Title(参考訳): 説明可能なが脆弱性:サイバーセキュリティアプリケーションにおけるXAI説明に対する敵対的攻撃
- Authors: Maraz Mia, Mir Mehedi A. Pritom,
- Abstract要約: 説明可能な人工知能(XAI)は、ブラックボックスモデルの決定を精査する能力を持つ機械学習(ML)研究者を支援している。
XAIメソッド自体は、説明モジュールから期待された結果を操作する、攻撃後の攻撃の犠牲になる可能性がある。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Explainable Artificial Intelligence (XAI) has aided machine learning (ML) researchers with the power of scrutinizing the decisions of the black-box models. XAI methods enable looking deep inside the models' behavior, eventually generating explanations along with a perceived trust and transparency. However, depending on any specific XAI method, the level of trust can vary. It is evident that XAI methods can themselves be a victim of post-adversarial attacks that manipulate the expected outcome from the explanation module. Among such attack tactics, fairwashing explanation (FE), manipulation explanation (ME), and backdoor-enabled manipulation attacks (BD) are the notable ones. In this paper, we try to understand these adversarial attack techniques, tactics, and procedures (TTPs) on explanation alteration and thus the effect on the model's decisions. We have explored a total of six different individual attack procedures on post-hoc explanation methods such as SHAP (SHapley Additive exPlanations), LIME (Local Interpretable Model-agnostic Explanation), and IG (Integrated Gradients), and investigated those adversarial attacks in cybersecurity applications scenarios such as phishing, malware, intrusion, and fraudulent website detection. Our experimental study reveals the actual effectiveness of these attacks, thus providing an urgency for immediate attention to enhance the resiliency of XAI methods and their applications.
- Abstract(参考訳): 説明可能な人工知能(XAI)は、ブラックボックスモデルの決定を精査する能力を持つ機械学習(ML)研究者を支援している。
XAIメソッドはモデルの振る舞いの奥深くを探索し、最終的には信頼と透明性の認識とともに説明を生成する。
しかしながら、特定のXAI手法によって、信頼度は様々である。
XAI手法自体が,説明モジュールから期待される結果を操作する,先進攻撃の犠牲者となることは明らかである。
このような攻撃戦術の中で、フェアウォッシング説明(FE)、操作説明(ME)、バックドア対応操作攻撃(BD)が顕著である。
本稿では,これらの敵攻撃手法,戦術,手順(TTP)について,説明修正について理解し,モデルの決定に与える影響について考察する。
我々は、SHAP(SHapley Additive exPlanations)、LIME(Local Interpretable Model-Agnostic Explanation)、IG(Integrated Gradients)などのポストホックな説明手法に関する6種類の個別攻撃手順を調査し、フィッシング、マルウェア、侵入、不正ウェブサイト検出などのサイバーセキュリティアプリケーションシナリオにおける敵攻撃について検討した。
実験により,これらの攻撃の有効性が明らかとなり,XAI法とその応用のレジリエンスを高めるための緊急対応が図られた。
関連論文リスト
- eXIAA: eXplainable Injections for Adversarial Attack [3.512208543873998]
ポストホックな説明可能な人工知能(XAI)のための新しいブラックボックスモデル非依存的敵攻撃を示す。
攻撃の目的は、人間の目によって発見されず、予測されたクラスを維持しながら、元の説明を変更することである。
提案手法の低要件は、現在の説明可能性手法において重大な脆弱性を露呈し、安全クリティカルなアプリケーションにおける信頼性に関する懸念を提起する。
論文 参考訳(メタデータ) (2025-11-13T08:42:24Z) - Quantifying Loss Aversion in Cyber Adversaries via LLM Analysis [2.798191832420146]
IARPAのReSCINDプログラムは、攻撃的な認知特性を推論し、防御し、悪用しようと試みている。
本稿では,大規模言語モデル(LLM)を利用して,ハッカー行動からの損失回避の認知バイアスに関する定量的知見を抽出する手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T05:51:30Z) - How Vulnerable Is My Learned Policy? Universal Adversarial Perturbation Attacks On Modern Behavior Cloning Policies [15.999261636389702]
Demonstration(LfD)アルゴリズムからの学習は、ロボット操作タスクにおいて有望な結果を示している。
しかし、オフラインの普遍的摂動攻撃に対する彼らの脆弱性は、まだ解明されていない。
本稿では,従来のアルゴリズムと最近提案されたアルゴリズムの両方に対する敵攻撃の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-02-06T01:17:39Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors [2.1165011830664673]
ブラディング攻撃は、機械学習アルゴリズムの予測と説明を大きく変える可能性がある。
我々は統計的解析を利用して、目隠し攻撃後のCNN内のCNN重みの変化を明らかにする。
本研究では,評価段階における攻撃の有効性を限定する手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T09:36:10Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Adversarial attacks and defenses in explainable artificial intelligence: A survey [9.769695768744421]
敵機械学習(AdvML)の最近の進歩は、最先端の説明手法の限界と脆弱性を強調している。
本調査は、機械学習モデルの説明に対する敵攻撃に関する総合的な研究の概要を提供する。
論文 参考訳(メタデータ) (2023-06-06T09:53:39Z) - AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models [1.8752655643513647]
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。
そこで本研究では,ブラックボックス設定下での解釈可能なモデルに対して,新たなリトレーニング(学習)に基づくモデル抽出攻撃フレームワークを提案する。
AUTOLYCUSは非常に効果的で、最先端の攻撃に比べてクエリが大幅に少ないことが示される。
論文 参考訳(メタデータ) (2023-02-04T13:23:39Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。