論文の概要: From Shortcuts to Triggers: Backdoor Defense with Denoised PoE
- arxiv url: http://arxiv.org/abs/2305.14910v3
- Date: Tue, 2 Apr 2024 23:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 23:37:29.443241
- Title: From Shortcuts to Triggers: Backdoor Defense with Denoised PoE
- Title(参考訳): ショートカットからトリガーへ:POEによるバックドアディフェンス
- Authors: Qin Liu, Fei Wang, Chaowei Xiao, Muhao Chen,
- Abstract要約: 言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
- 参考スコア(独自算出の注目度): 51.287157951953226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are often at risk of diverse backdoor attacks, especially data poisoning. Thus, it is important to investigate defense solutions for addressing them. Existing backdoor defense methods mainly focus on backdoor attacks with explicit triggers, leaving a universal defense against various backdoor attacks with diverse triggers largely unexplored. In this paper, we propose an end-to-end ensemble-based backdoor defense framework, DPoE (Denoised Product-of-Experts), which is inspired by the shortcut nature of backdoor attacks, to defend various backdoor attacks. DPoE consists of two models: a shallow model that captures the backdoor shortcuts and a main model that is prevented from learning the backdoor shortcuts. To address the label flip caused by backdoor attackers, DPoE incorporates a denoising design. Experiments on SST-2 dataset show that DPoE significantly improves the defense performance against various types of backdoor triggers including word-level, sentence-level, and syntactic triggers. Furthermore, DPoE is also effective under a more challenging but practical setting that mixes multiple types of trigger.
- Abstract(参考訳): 言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
したがって, 防衛対策について検討することが重要である。
既存のバックドア防御法は主に露骨な引き金によるバックドア攻撃に重点を置いており、様々なバックドア攻撃に対する普遍的な防御は、ほとんど探索されていない。
本稿では,バックドア攻撃のショートカット性に着想を得た,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
DPoEは、バックドアショートカットをキャプチャする浅いモデルと、バックドアショートカットを学習するのを防ぐメインモデルである。
バックドア攻撃によるラベルフリップに対処するため、DPoEはデノイングデザインを取り入れている。
SST-2データセットの実験では、DPoEは単語レベル、文レベル、構文的トリガを含む様々な種類のバックドアトリガに対する防御性能を著しく向上することが示された。
さらにDPoEは、複数の種類のトリガーを混ぜるより難しいが実用的な設定でも有効である。
関連論文リスト
- Act in Collusion: A Persistent Distributed Multi-Target Backdoor in Federated Learning [5.91728247370845]
フェデレーション学習は、その分散した性質のため、バックドア攻撃に対して脆弱である。
我々は、分散マルチターゲットバックドアであるフェデレーション学習のためのより実用的な脅威モデルを提案する。
攻撃後30ラウンド、各種顧客からの3つの異なるバックドアのアタック成功率は93%以上である。
論文 参考訳(メタデータ) (2024-11-06T13:57:53Z) - Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - PureDiffusion: Using Backdoor to Counter Backdoor in Generative Diffusion Models [5.957580737396457]
拡散モデル(DM)は、幅広い生成タスクにおいて最先端の能力を達成した高度なディープラーニングモデルである。
近年の研究では、バックドア攻撃に関する脆弱性が示されており、バックドアDMは、バックドアターゲットと呼ばれる指定結果を一貫して生成している。
DMに埋め込まれたバックドアトリガを反転させることで、バックドア攻撃を効率的に検出できる新しいバックドア防御フレームワークであるPureDiffusionを導入する。
論文 参考訳(メタデータ) (2024-09-20T23:19:26Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Dual Model Replacement:invisible Multi-target Backdoor Attack based on Federal Learning [21.600003684064706]
本稿では,フェデレート学習に基づくバックドア攻撃手法を設計する。
バックドアトリガの隠蔽を目的としたエンコーダデコーダ構造を備えたトロイジャンガンステガノグラフィーモデルが設計されている。
フェデレート学習に基づく二重モデル置換バックドア攻撃アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-22T07:44:02Z) - LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Dual-Key Multimodal Backdoors for Visual Question Answering [26.988750557552983]
マルチモーダルネットワークは、Dual-Key Multimodal Backdoorsと呼ばれる新しいタイプの攻撃に対して脆弱であることを示す。
この攻撃は、最先端のネットワークが使用する複雑な融合機構を利用して、効果的でステルス的なバックドアを埋め込む。
本稿では,視覚的質問応答(VQA)タスクにおけるマルチモーダルバックドアについて,複数のアーキテクチャと視覚的特徴バックボーンを用いた広範な検討を行う。
論文 参考訳(メタデータ) (2021-12-14T18:59:52Z) - Backdoor Attack in the Physical World [49.64799477792172]
ディープニューラルネットワーク(DNN)に隠れたバックドアを注入するバックドア攻撃
既存のバックドア攻撃のほとんどは、トレーニングおよびテスト画像にまたがる静的トリガ、すなわち$$トリガの設定を採用した。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、この攻撃パラダイムは脆弱であることを示す。
論文 参考訳(メタデータ) (2021-04-06T08:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。