論文の概要: Impact of Adversarial Attacks on Deep Learning Model Explainability
- arxiv url: http://arxiv.org/abs/2412.11119v1
- Date: Sun, 15 Dec 2024 08:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:36.768717
- Title: Impact of Adversarial Attacks on Deep Learning Model Explainability
- Title(参考訳): 敵対的攻撃がディープラーニングモデル説明可能性に及ぼす影響
- Authors: Gazi Nazia Nur, Mohammad Ahnaf Sadat,
- Abstract要約: ディープラーニングモデルの説明可能性に対する敵攻撃の影響について検討する。
我々の研究は、モデルが敵攻撃を受けるときのこれらの説明の堅牢性に焦点を当てている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we investigate the impact of adversarial attacks on the explainability of deep learning models, which are commonly criticized for their black-box nature despite their capacity for autonomous feature extraction. This black-box nature can affect the perceived trustworthiness of these models. To address this, explainability techniques such as GradCAM, SmoothGrad, and LIME have been developed to clarify model decision-making processes. Our research focuses on the robustness of these explanations when models are subjected to adversarial attacks, specifically those involving subtle image perturbations that are imperceptible to humans but can significantly mislead models. For this, we utilize attack methods like the Fast Gradient Sign Method (FGSM) and the Basic Iterative Method (BIM) and observe their effects on model accuracy and explanations. The results reveal a substantial decline in model accuracy, with accuracies dropping from 89.94% to 58.73% and 45.50% under FGSM and BIM attacks, respectively. Despite these declines in accuracy, the explanation of the models measured by metrics such as Intersection over Union (IoU) and Root Mean Square Error (RMSE) shows negligible changes, suggesting that these metrics may not be sensitive enough to detect the presence of adversarial perturbations.
- Abstract(参考訳): 本稿では,自律的特徴抽出能力にもかかわらず,ブラックボックスの性質が批判される深層学習モデルの説明可能性に対する敵対的攻撃の影響について検討する。
このブラックボックスの性質は、これらのモデルの信頼性に影響を及ぼす可能性がある。
これを解決するために、GradCAM、SmoothGrad、LIMEなどの説明可能性技術が開発され、意思決定プロセスのモデル化が進められている。
我々の研究は、モデルが敵対的攻撃を受けるときのこれらの説明の堅牢性に焦点を当てている。
そこで我々は,FGSM (Fast Gradient Sign Method) やBIM (Basic Iterative Method) などの攻撃手法を用いて,モデル精度と説明に対するそれらの効果を観察する。
その結果、モデル精度は89.94%から58.73%に低下し、FGSMとBIMの攻撃で45.50%となった。
これらの精度の低下にもかかわらず、Intersection over Union (IoU) や Root Mean Square Error (RMSE) のようなメトリクスによって測定されたモデルの説明は無視できる変化を示しており、これらの指標が敵の摂動の存在を検出するのに十分敏感でないことを示唆している。
関連論文リスト
- Deferred Poisoning: Making the Model More Vulnerable via Hessian Singularization [36.13844441263675]
我々は、より脅迫的なタイプの毒殺攻撃(Dederred Poisoning Attack)を導入する。
この新たな攻撃により、モデルは通常、トレーニングと検証フェーズで機能するが、回避攻撃や自然騒音に非常に敏感になる。
提案手法の理論的および実証的な解析を行い、画像分類タスクの実験を通してその効果を検証した。
論文 参考訳(メタデータ) (2024-11-06T08:27:49Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Investigating the Impact of Model Instability on Explanations and Uncertainty [43.254616360807496]
テキスト入力における不確かさを推測時に雑音を導入することでシミュレートする。
高い不確実性は必ずしも説明可能性の低さを暗示しない。
このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。
論文 参考訳(メタデータ) (2024-02-20T13:41:21Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Reducing Risk of Model Inversion Using Privacy-Guided Training [0.0]
最近の攻撃では、訓練されたモデルから機密情報を推測することができた。
本稿では,木系モデルにおけるモデル逆転攻撃に対する対策について述べる。
論文 参考訳(メタデータ) (2020-06-29T09:02:16Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。