論文の概要: Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning
- arxiv url: http://arxiv.org/abs/2510.13322v1
- Date: Wed, 15 Oct 2025 09:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.588192
- Title: Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning
- Title(参考訳): インジェクション、アタック、消去 - マシンアンラーニングによる回避可能なバックドアアタック
- Authors: Baogang Song, Dongdong Zhao, Jianwen Xiang, Qiben Xu, Zizhuo Yu,
- Abstract要約: 本稿では,攻撃目標達成後,バックドアを積極的にかつ徹底的に取り除くことができる,取り消し可能なバックドア攻撃の第1パラダイムを紹介する。
この研究は、バックドア攻撃研究の新しい方向性を開き、機械学習システムのセキュリティに対する新たな課題を提示します。
- 参考スコア(独自算出の注目度): 2.1896295740048894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks pose a persistent security risk to deep neural networks (DNNs) due to their stealth and durability. While recent research has explored leveraging model unlearning mechanisms to enhance backdoor concealment, existing attack strategies still leave persistent traces that may be detected through static analysis. In this work, we introduce the first paradigm of revocable backdoor attacks, where the backdoor can be proactively and thoroughly removed after the attack objective is achieved. We formulate the trigger optimization in revocable backdoor attacks as a bilevel optimization problem: by simulating both backdoor injection and unlearning processes, the trigger generator is optimized to achieve a high attack success rate (ASR) while ensuring that the backdoor can be easily erased through unlearning. To mitigate the optimization conflict between injection and removal objectives, we employ a deterministic partition of poisoning and unlearning samples to reduce sampling-induced variance, and further apply the Projected Conflicting Gradient (PCGrad) technique to resolve the remaining gradient conflicts. Experiments on CIFAR-10 and ImageNet demonstrate that our method maintains ASR comparable to state-of-the-art backdoor attacks, while enabling effective removal of backdoor behavior after unlearning. This work opens a new direction for backdoor attack research and presents new challenges for the security of machine learning systems.
- Abstract(参考訳): バックドア攻撃は、ディープニューラルネットワーク(DNN)のステルス性と耐久性のために、永続的なセキュリティリスクを引き起こす。
最近の研究では、バックドアの隠蔽を強化するためのモデルアンラーニングメカニズムの活用が検討されているが、既存の攻撃戦略は静的解析によって検出される可能性のある永続的なトレースを残している。
本研究では,攻撃目標が達成された後,バックドアを積極的にかつ徹底的に除去できる,取り消し可能なバックドアアタックの最初のパラダイムを紹介する。
バックドアインジェクションとアンラーニングプロセスの両方をシミュレートすることにより、トリガージェネレータを最適化し、高いアタック成功率(ASR)を達成するとともに、アンラーニングによるバックドアの消去を容易にする。
注入と除去の目的間の最適化競合を軽減するために, サンプリング誘起分散を低減するために, 毒素と未学習サンプルの確定的分割を用い, さらに, 残りの勾配対立を解決するために, 予測衝突勾配法(PCGrad)を適用した。
CIFAR-10とImageNetの実験により,本手法は最先端のバックドア攻撃に匹敵するASRを維持しつつ,未学習後のバックドア動作を効果的に除去できることが実証された。
この研究は、バックドア攻撃研究の新しい方向性を開き、機械学習システムのセキュリティに対する新たな課題を提示します。
関連論文リスト
- Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - An Effective and Resilient Backdoor Attack Framework against Deep Neural Networks and Vision Transformers [22.77836113915616]
本稿では,最適なトリガ形状と位置を探索する,注目に基づく新しいマスク生成手法を提案する。
また、損失関数にQuality-of-Experienceという用語を導入し、トリガの透明性値を慎重に調整する。
提案したバックドア攻撃フレームワークは,最先端のバックドア防御に対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-09T02:03:27Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning
System [4.9233610638625604]
マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。
攻撃者はまず、毒や緩和データを含む慎重に設計されたサンプルでトレーニングセットを強化し、良心のモデルを訓練する。
そして、攻撃者は、モデルの関連するデータの影響を取り除くために、未学習のサンプルに対するリクエストをポストし、徐々に隠れたバックドアを活性化する。
論文 参考訳(メタデータ) (2023-09-12T02:42:39Z) - Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering [39.11590429626592]
勾配に基づくトリガーインバージョンは、最も効果的なバックドア検出手法の1つであると考えられている。
本研究は, 既存の攻撃は, トリガーキャリング入力に伴う変化率の低いバックドアを注入する傾向にあることを示した。
textitGradient Shaping(GRASP)と呼ばれる新たな攻撃強化を設計し、トリガに関するバックドアモデルの変更率を削減する。
論文 参考訳(メタデータ) (2023-01-29T01:17:46Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。