論文の概要: Mitigating Backdoor Attacks using Activation-Guided Model Editing
- arxiv url: http://arxiv.org/abs/2407.07662v2
- Date: Mon, 30 Sep 2024 12:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:33.064493
- Title: Mitigating Backdoor Attacks using Activation-Guided Model Editing
- Title(参考訳): アクティベーション誘導型モデル編集によるバックドア攻撃の軽減
- Authors: Felix Hsieh, Huy H. Nguyen, AprilPyone MaungMaung, Dmitrii Usynin, Isao Echizen,
- Abstract要約: バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
- 参考スコア(独自算出の注目度): 8.00994004466919
- License:
- Abstract: Backdoor attacks compromise the integrity and reliability of machine learning models by embedding a hidden trigger during the training process, which can later be activated to cause unintended misbehavior. We propose a novel backdoor mitigation approach via machine unlearning to counter such backdoor attacks. The proposed method utilizes model activation of domain-equivalent unseen data to guide the editing of the model's weights. Unlike the previous unlearning-based mitigation methods, ours is computationally inexpensive and achieves state-of-the-art performance while only requiring a handful of unseen samples for unlearning. In addition, we also point out that unlearning the backdoor may cause the whole targeted class to be unlearned, thus introducing an additional repair step to preserve the model's utility after editing the model. Experiment results show that the proposed method is effective in unlearning the backdoor on different datasets and trigger patterns.
- Abstract(参考訳): バックドア攻撃は、トレーニングプロセス中に隠れたトリガーを埋め込むことで、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
提案手法は,モデル重みの編集を導くために,ドメイン等価な未確認データのモデルアクティベーションを利用する。
従来のアンラーニングベースの緩和手法とは異なり、我々の手法は計算コストが低く、最先端のパフォーマンスを実現し、未学習には少数の未学習サンプルしか必要としない。
さらに,バックドアの未学習は,対象クラス全体を未学習にする可能性も指摘し,モデル編集後のモデルの実用性を維持するための追加の修復手順を導入する。
実験の結果,提案手法は,異なるデータセットのバックドアの学習やトリガーパターンの学習に有効であることがわかった。
関連論文リスト
- DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - Unlearning Backdoor Attacks through Gradient-Based Model Pruning [10.801476967873173]
本研究では,その軽減を未学習課題として扱うことによって,バックドア攻撃に対抗する新しい手法を提案する。
このアプローチは単純さと有効性を提供し、データ可用性に制限のあるシナリオに適しています。
論文 参考訳(メタデータ) (2024-05-07T00:36:56Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection
on Open-Set Classification Tasks [51.78558228584093]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
両モデルがバックドアされている場合でも,バックドアが検出可能であることを示す。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Fine-Tuning Is All You Need to Mitigate Backdoor Attacks [10.88508085229675]
ファインチューニングは、機械学習モデルからバックドアを効果的に取り除き、高モデルユーティリティを維持できることを示す。
私たちは、バックドアの削除前後の他の攻撃に対するモデル脆弱性の変化を測定するために、バックドアの続編という新しい用語を作成しました。
論文 参考訳(メタデータ) (2022-12-18T11:30:59Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Identifying Backdoor Attacks in Federated Learning via Anomaly Detection [31.197488921578984]
フェデレーション学習はバックドア攻撃に弱い。
本稿では,共有モデル更新を検証し,攻撃に対する効果的な防御方法を提案する。
提案手法が最先端のバックドア攻撃を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-02-09T07:07:42Z) - Backdoor Defense with Machine Unlearning [32.968653927933296]
本研究では,マシン・アンラーニングにより,被害者モデルに注入されたバックドアを消去する新しい手法であるBAERASEを提案する。
BAERASEは、4つのベンチマークデータセットに対して、3種類の最先端バックドア攻撃の攻撃成功率を99%下げることができる。
論文 参考訳(メタデータ) (2022-01-24T09:09:12Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。