論文の概要: Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge
- arxiv url: http://arxiv.org/abs/2402.19334v1
- Date: Thu, 29 Feb 2024 16:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:56:43.458066
- Title: Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge
- Title(参考訳): バックドアモデルとモデルマージを連携させる無料ランチ
- Authors: Ansh Arora, Xuanli He, Maximilian Mozes, Srinibas Swain, Mark Dras,
and Qiongkai Xu
- Abstract要約: オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
本稿では, バックドアモデルと他の同種モデルとを組み合わせることで, 完全安全でない場合でも, バックドア脆弱性を軽減できることを示唆する。
複数の先進的な防御手法と比較して,本手法は,追加資源や特定の知識を使わずに,バックドア攻撃に対する効果的かつ効率的な推論ステージ防御を提供する。
- 参考スコア(独自算出の注目度): 17.3048898399324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The democratization of pre-trained language models through open-source
initiatives has rapidly advanced innovation and expanded access to cutting-edge
technologies. However, this openness also brings significant security risks,
including backdoor attacks, where hidden malicious behaviors are triggered by
specific inputs, compromising natural language processing (NLP) system
integrity and reliability. This paper suggests that merging a backdoored model
with other homogeneous models can remediate backdoor vulnerabilities even if
such models are not entirely secure. In our experiments, we explore various
models (BERT-Base, RoBERTa-Large, Llama2-7B, and Mistral-7B) and datasets
(SST-2, OLID, AG News, and QNLI). Compared to multiple advanced defensive
approaches, our method offers an effective and efficient inference-stage
defense against backdoor attacks without additional resources or specific
knowledge. Our approach consistently outperforms the other advanced baselines,
leading to an average of 75% reduction in the attack success rate. Since model
merging has been an established approach for improving model performance, the
extra advantage it provides regarding defense can be seen as a cost-free bonus.
- Abstract(参考訳): オープンソースのイニシアチブによる事前学習された言語モデルの民主化は急速に進歩し、最先端技術へのアクセスも拡大した。
しかし、このオープン性は、特定の入力によって隠れた悪意のある振る舞いが引き起こされるバックドア攻撃や、自然言語処理(NLP)システムの完全性と信頼性を損なうような、重大なセキュリティリスクをもたらす。
本稿では,バックドアモデルと他の均質モデルを統合することで,モデルが完全安全でない場合でもバックドア脆弱性を修復できることを示す。
実験では,BERT-Base,RoBERTa-Large,Llama2-7B,Mistral-7B)およびデータセット(SST-2,OLID,AG News,QNLI)について検討した。
複数の先進的な防御手法と比較して,本手法は,追加資源や特定の知識を使わずに,バックドア攻撃に対する効果的かつ効率的な推論ステージ防御を提供する。
我々のアプローチは、他の先進的なベースラインを一貫して上回っており、攻撃成功率は平均75%減少している。
モデルマージは、モデルパフォーマンスを改善するための確立されたアプローチであるため、防御に関する余分な利点は、コストのないボーナスと見なすことができる。
関連論文リスト
- Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace [15.457992715866995]
本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。
既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
論文 参考訳(メタデータ) (2024-10-17T00:13:31Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Fusing Pruned and Backdoored Models: Optimal Transport-based Data-free Backdoor Mitigation [22.698855006036748]
バックドア攻撃はディープニューロンネットワーク(DNN)に深刻な脅威をもたらす
本研究は,OTBR(Optimal Transport-based Backdoor repairing)と呼ばれる新しいデータ自由防衛手法を提案する。
私たちの知る限りでは、OTとモデル融合技術をバックドアディフェンスに適用するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-08-28T15:21:10Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。