論文の概要: Mudjacking: Patching Backdoor Vulnerabilities in Foundation Models
- arxiv url: http://arxiv.org/abs/2402.14977v1
- Date: Thu, 22 Feb 2024 21:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:17:58.337437
- Title: Mudjacking: Patching Backdoor Vulnerabilities in Foundation Models
- Title(参考訳): Mudjacking: ファンデーションモデルにおけるバックドア脆弱性の対処
- Authors: Hongbin Liu, Michael K. Reiter, Neil Zhenqiang Gong
- Abstract要約: ファンデーションモデルはバックドア攻撃に対して脆弱であり、バックドアのファンデーションモデルはAIエコシステムの単一障害点である。
バックドアを削除するために基礎モデルをパッチする最初の方法であるMudjackingを提案する。
この結果から,Mudjackingはその実用性を維持しつつ,基礎モデルからバックドアを除去できることが示唆された。
- 参考スコア(独自算出の注目度): 55.038561766001514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation model has become the backbone of the AI ecosystem. In particular,
a foundation model can be used as a general-purpose feature extractor to build
various downstream classifiers. However, foundation models are vulnerable to
backdoor attacks and a backdoored foundation model is a single-point-of-failure
of the AI ecosystem, e.g., multiple downstream classifiers inherit the backdoor
vulnerabilities simultaneously. In this work, we propose Mudjacking, the first
method to patch foundation models to remove backdoors. Specifically, given a
misclassified trigger-embedded input detected after a backdoored foundation
model is deployed, Mudjacking adjusts the parameters of the foundation model to
remove the backdoor. We formulate patching a foundation model as an
optimization problem and propose a gradient descent based method to solve it.
We evaluate Mudjacking on both vision and language foundation models, eleven
benchmark datasets, five existing backdoor attacks, and thirteen adaptive
backdoor attacks. Our results show that Mudjacking can remove backdoor from a
foundation model while maintaining its utility.
- Abstract(参考訳): ファンデーションモデルは、AIエコシステムのバックボーンとなっている。
特に、様々な下流分類器を構築するための汎用特徴抽出器として基礎モデルを用いることができる。
しかし、基盤モデルはバックドア攻撃に対して脆弱であり、バックドアの基盤モデルはaiエコシステムの単一障害(例えば、複数の下流の分類器がバックドアの脆弱性を同時に継承する)である。
本研究では,バックドアの除去に基礎モデルをパッチする最初の方法であるMudjackingを提案する。
具体的には、バックドアモデルがデプロイされた後に検出された誤分類トリガー埋め込み入力に対して、Mudjackingはファンデーションモデルのパラメータを調整してバックドアを除去する。
最適化問題として基礎モデルのパッチを定式化し,その解法として勾配降下法を提案する。
視覚と言語の基礎モデル、11のベンチマークデータセット、既存の5つのバックドア攻撃、13の適応バックドア攻撃でMudjackingを評価する。
その結果,マッドジャックは実用性を維持しつつ,基礎モデルからバックドアを除去できることがわかった。
関連論文リスト
- Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T14:54:16Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input
Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。
私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。
モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文 参考訳(メタデータ) (2023-08-23T21:47:06Z) - PatchBackdoor: Backdoor Attack against Deep Neural Networks without
Model Modification [0.0]
バックドア攻撃は、安全クリティカルなシナリオにおけるディープラーニングシステムに対する大きな脅威である。
本稿では,モデル変更なしにバックドア攻撃が可能であることを示す。
PatchBackdoorを現実のシナリオで実装し、攻撃がまだ脅威であることを示す。
論文 参考訳(メタデータ) (2023-08-22T23:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。