論文の概要: Fine-Tuning Is All You Need to Mitigate Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2212.09067v1
- Date: Sun, 18 Dec 2022 11:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:54:49.847409
- Title: Fine-Tuning Is All You Need to Mitigate Backdoor Attacks
- Title(参考訳): バックドア攻撃を緩和する「ファインチューニング」
- Authors: Zeyang Sha and Xinlei He and Pascal Berrang and Mathias Humbert and
Yang Zhang
- Abstract要約: ファインチューニングは、機械学習モデルからバックドアを効果的に取り除き、高モデルユーティリティを維持できることを示す。
私たちは、バックドアの削除前後の他の攻撃に対するモデル脆弱性の変化を測定するために、バックドアの続編という新しい用語を作成しました。
- 参考スコア(独自算出の注目度): 10.88508085229675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attacks represent one of the major threats to machine learning
models. Various efforts have been made to mitigate backdoors. However, existing
defenses have become increasingly complex and often require high computational
resources or may also jeopardize models' utility. In this work, we show that
fine-tuning, one of the most common and easy-to-adopt machine learning training
operations, can effectively remove backdoors from machine learning models while
maintaining high model utility. Extensive experiments over three machine
learning paradigms show that fine-tuning and our newly proposed
super-fine-tuning achieve strong defense performance. Furthermore, we coin a
new term, namely backdoor sequela, to measure the changes in model
vulnerabilities to other attacks before and after the backdoor has been
removed. Empirical evaluation shows that, compared to other defense methods,
super-fine-tuning leaves limited backdoor sequela. We hope our results can help
machine learning model owners better protect their models from backdoor
threats. Also, it calls for the design of more advanced attacks in order to
comprehensively assess machine learning models' backdoor vulnerabilities.
- Abstract(参考訳): バックドア攻撃は、機械学習モデルに対する大きな脅威の1つだ。
バックドアを緩和するための様々な努力がなされている。
しかし、既存の防御はますます複雑化しており、高い計算資源を必要とすることも多い。
本研究は,機械学習モデルからバックドアを効果的に取り除き,高モデルユーティリティを維持しつつ,最も一般的かつ容易に学習できる機械学習トレーニング操作の1つであるファインチューニングについて述べる。
3つの機械学習パラダイムに対する大規模な実験は、ファインチューニングと新しいスーパーファインチューニングが強力な防御性能を実現することを示している。
さらに,バックドアの削除前後におけるモデル脆弱性の変化を測定するために,backdoor sequelaという新たな用語を考案した。
実証的な評価は、他の防御方法と比較して、超微細な葉はバックドアの続編に制限されていることを示している。
私たちの結果は、マシンラーニングモデルオーナがバックドアの脅威からモデルを保護するのに役立つことを願っています。
また、機械学習モデルのバックドア脆弱性を総合的に評価するために、より高度な攻撃の設計も求めている。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation [10.888542040021962]
W2SDefenseは、バックドア攻撃から防御する弱い学習アルゴリズムである。
我々は3つの最先端言語モデルと3つの異なるバックドア攻撃アルゴリズムを含むテキスト分類タスクについて実験を行った。
論文 参考訳(メタデータ) (2024-10-18T12:39:32Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Mitigating Backdoor Attacks using Activation-Guided Model Editing [8.00994004466919]
バックドア攻撃は、機械学習モデルの完全性と信頼性を損なう。
本研究では,そのようなバックドア攻撃に対抗するために,機械学習による新たなバックドア緩和手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T13:43:47Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Enhancing Fine-Tuning Based Backdoor Defense with Sharpness-Aware
Minimization [27.964431092997504]
良性データに基づく微調整は、バックドアモデルにおけるバックドア効果を消去するための自然な防御である。
本研究では, バックドア関連ニューロンのノルムを小さくするために, 微調整によるシャープネス認識最小化を取り入れた新しいバックドア防御パラダイムFTSAMを提案する。
論文 参考訳(メタデータ) (2023-04-24T05:13:52Z) - Evil from Within: Machine Learning Backdoors through Hardware Trojans [72.99519529521919]
バックドアは、自動運転車のようなセキュリティクリティカルなシステムの整合性を損なう可能性があるため、機械学習に深刻な脅威をもたらす。
私たちは、機械学習のための一般的なハードウェアアクセラレーターに完全に存在するバックドアアタックを導入します。
我々は,Xilinx Vitis AI DPUにハードウェアトロイの木馬を埋め込むことにより,攻撃の実現可能性を示す。
論文 参考訳(メタデータ) (2023-04-17T16:24:48Z) - Architectural Backdoors in Neural Networks [27.315196801989032]
モデルアーキテクチャの内部に隠れる新しい種類のバックドアアタックを導入します。
これらのバックドアの実装は簡単で、例えばバックドアモデルアーキテクチャ用のオープンソースコードを公開している。
私たちは、モデルアーキテクチャのバックドアが真の脅威であり、他のアプローチとは異なり、ゼロから完全な再トレーニングに耐えられることを実証しています。
論文 参考訳(メタデータ) (2022-06-15T22:44:03Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Blind Backdoors in Deep Learning Models [22.844973592524966]
本稿では,機械学習モデルにバックドアを注入する新しい手法について検討する。
従来の文献よりも厳格に強力なバックドアの新たなクラスを実証するために使用しています。
攻撃者はトレーニングデータを変更したり、コードの実行を観察したり、結果のモデルにアクセスしたりすることができません。
論文 参考訳(メタデータ) (2020-05-08T02:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。