論文の概要: Illuminating the Black Box: Real-Time Monitoring of Backdoor Unlearning in CNNs via Explainable AI
- arxiv url: http://arxiv.org/abs/2511.21291v1
- Date: Wed, 26 Nov 2025 11:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.076599
- Title: Illuminating the Black Box: Real-Time Monitoring of Backdoor Unlearning in CNNs via Explainable AI
- Title(参考訳): ブラックボックスのイルミネーション: 説明可能なAIによるCNNにおけるバックドアの学習のリアルタイムモニタリング
- Authors: Tien Dat Hoang,
- Abstract要約: バックドア攻撃は、誤分類を強制する悪意のあるトリガーを埋め込むことで、ディープニューラルネットワークに深刻なセキュリティ脅威を引き起こす。
本稿では,Grad-CAM(Grad-CAM)を学習プロセスに統合し,リアルタイムモニタリングと説明可能性を実現する新しいフレームワークを提案する。
BadNets攻撃によるCIFAR-10の実験では、我々のアプローチが96.51%から5.52%に減少し、99.48%のクリーン精度(82.06%)を維持した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks pose severe security threats to deep neural networks by embedding malicious triggers that force misclassification. While machine unlearning techniques can remove backdoor behaviors, current methods lack transparency and real-time interpretability. This paper introduces a novel framework that integrates Gradient-weighted Class Activation Mapping (Grad-CAM) into the unlearning process to provide real-time monitoring and explainability. We propose the Trigger Attention Ratio (TAR) metric to quantitatively measure the model's attention shift from trigger patterns to legitimate object features. Our balanced unlearning strategy combines gradient ascent on backdoor samples, Elastic Weight Consolidation (EWC) for catastrophic forgetting prevention, and a recovery phase for clean accuracy restoration. Experiments on CIFAR-10 with BadNets attacks demonstrate that our approach reduces Attack Success Rate (ASR) from 96.51% to 5.52% while retaining 99.48% of clean accuracy (82.06%), achieving a 94.28% ASR reduction. The integration of explainable AI enables transparent, observable, and verifiable backdoor removal.
- Abstract(参考訳): バックドア攻撃は、誤分類を強制する悪意のあるトリガーを埋め込むことで、ディープニューラルネットワークに深刻なセキュリティ脅威を引き起こす。
機械学習のテクニックは、バックドアの振る舞いを取り除くことができるが、現在の手法では透明性とリアルタイムの解釈性が欠如している。
本稿では,Grad-CAM(Grad-CAM)を学習プロセスに統合し,リアルタイムモニタリングと説明可能性を実現する新しいフレームワークを提案する。
本稿では,トリガー注意率(TAR)尺度を提案し,トリガーパターンから正当性オブジェクト特徴へのモデルの注意変化を定量的に測定する。
バランスのとれたアンラーニング戦略は、バックドアサンプルへの勾配上昇、破滅的な忘れ込み防止のための弾性重み強化(EWC)、クリーンな精度回復のための回復段階を組み合わせたものである。
BadNets攻撃によるCIFAR-10の実験では、我々のアプローチが96.51%から5.52%に減少し、99.48%のクリーン精度(82.06%)を維持し、94.28%のASR削減を達成した。
説明可能なAIの統合により、透明で観察可能な、検証可能なバックドア削除が可能になる。
関連論文リスト
- Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning [2.1896295740048894]
本稿では,攻撃目標達成後,バックドアを積極的にかつ徹底的に取り除くことができる,取り消し可能なバックドア攻撃の第1パラダイムを紹介する。
この研究は、バックドア攻撃研究の新しい方向性を開き、機械学習システムのセキュリティに対する新たな課題を提示します。
論文 参考訳(メタデータ) (2025-10-15T09:09:43Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Improving LLM Unlearning Robustness via Random Perturbations [9.075604660200053]
現状のLLMアンラーニング手法は,モデルのロバスト性を本質的に低下させることを示す。
本研究では,非学習プロセスをバックドア攻撃と防御として再編成する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-31T15:12:20Z) - Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。
現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。
モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文 参考訳(メタデータ) (2024-10-13T13:37:36Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。