Fugu-MT 論文翻訳(概要): Mudjacking: Patching Backdoor Vulnerabilities in Foundation Models

論文の概要: Mudjacking: Patching Backdoor Vulnerabilities in Foundation Models

arxiv url: http://arxiv.org/abs/2402.14977v1
Date: Thu, 22 Feb 2024 21:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 16:17:58.337437
Title: Mudjacking: Patching Backdoor Vulnerabilities in Foundation Models
Title（参考訳）: Mudjacking: ファンデーションモデルにおけるバックドア脆弱性の対処
Authors: Hongbin Liu, Michael K. Reiter, Neil Zhenqiang Gong
Abstract要約: ファンデーションモデルはバックドア攻撃に対して脆弱であり、バックドアのファンデーションモデルはAIエコシステムの単一障害点である。バックドアを削除するために基礎モデルをパッチする最初の方法であるMudjackingを提案する。この結果から,Mudjackingはその実用性を維持しつつ,基礎モデルからバックドアを除去できることが示唆された。
参考スコア（独自算出の注目度）: 55.038561766001514
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation model has become the backbone of the AI ecosystem. In particular, a foundation model can be used as a general-purpose feature extractor to build various downstream classifiers. However, foundation models are vulnerable to backdoor attacks and a backdoored foundation model is a single-point-of-failure of the AI ecosystem, e.g., multiple downstream classifiers inherit the backdoor vulnerabilities simultaneously. In this work, we propose Mudjacking, the first method to patch foundation models to remove backdoors. Specifically, given a misclassified trigger-embedded input detected after a backdoored foundation model is deployed, Mudjacking adjusts the parameters of the foundation model to remove the backdoor. We formulate patching a foundation model as an optimization problem and propose a gradient descent based method to solve it. We evaluate Mudjacking on both vision and language foundation models, eleven benchmark datasets, five existing backdoor attacks, and thirteen adaptive backdoor attacks. Our results show that Mudjacking can remove backdoor from a foundation model while maintaining its utility.
Abstract（参考訳）: ファンデーションモデルは、AIエコシステムのバックボーンとなっている。特に、様々な下流分類器を構築するための汎用特徴抽出器として基礎モデルを用いることができる。しかし、基盤モデルはバックドア攻撃に対して脆弱であり、バックドアの基盤モデルはaiエコシステムの単一障害(例えば、複数の下流の分類器がバックドアの脆弱性を同時に継承する)である。本研究では,バックドアの除去に基礎モデルをパッチする最初の方法であるMudjackingを提案する。具体的には、バックドアモデルがデプロイされた後に検出された誤分類トリガー埋め込み入力に対して、Mudjackingはファンデーションモデルのパラメータを調整してバックドアを除去する。最適化問題として基礎モデルのパッチを定式化し,その解法として勾配降下法を提案する。視覚と言語の基礎モデル、11のベンチマークデータセット、既存の5つのバックドア攻撃、13の適応バックドア攻撃でMudjackingを評価する。その結果,マッドジャックは実用性を維持しつつ,基礎モデルからバックドアを除去できることがわかった。

関連論文リスト

Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文参考訳（メタデータ） (2024-12-09T05:30:25Z)
Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文参考訳（メタデータ） (2024-12-02T10:54:02Z)
Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。 EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。 2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文参考訳（メタデータ） (2024-10-25T09:36:04Z)
Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor [0.24335447922683692]
基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
論文参考訳（メタデータ） (2024-09-03T14:54:16Z)
Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。 Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文参考訳（メタデータ） (2024-07-31T03:54:41Z)
TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文参考訳（メタデータ） (2024-05-27T03:10:57Z)
Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文参考訳（メタデータ） (2024-02-28T21:29:16Z)
BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input Detection [42.021282816470794]
我々は,Deep Neural Networks(DNN)に対するバックドア攻撃に対する新しい防御法を提案する。私たちの防衛は、モデルの生成方法とは独立して機能する開発後防衛のカテゴリに分類されます。モデル推論におけるバックドア入力をフィルタリングする高精度なバックドア入力検出装置の実現可能性を示す。
論文参考訳（メタデータ） (2023-08-23T21:47:06Z)
PatchBackdoor: Backdoor Attack against Deep Neural Networks without Model Modification [0.0]
バックドア攻撃は、安全クリティカルなシナリオにおけるディープラーニングシステムに対する大きな脅威である。本稿では,モデル変更なしにバックドア攻撃が可能であることを示す。 PatchBackdoorを現実のシナリオで実装し、攻撃がまだ脅威であることを示す。
論文参考訳（メタデータ） (2023-08-22T23:02:06Z)
Single Image Backdoor Inversion via Robust Smoothed Classifiers [76.66635991456336]
隠れたバックドアを1枚の画像で復元できるバックドア・インバージョンのための新しいアプローチを提案する。本研究では,1枚の画像で隠れたバックドアを復元できる,バックドア・インバージョンのための新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-03-01T03:37:42Z)
Black-box Detection of Backdoor Attacks with Limited Information and Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文参考訳（メタデータ） (2021-03-24T12:06:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。