論文の概要: From Shortcuts to Triggers: Backdoor Defense with Denoised PoE
- arxiv url: http://arxiv.org/abs/2305.14910v2
- Date: Sat, 23 Dec 2023 17:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:42:15.691368
- Title: From Shortcuts to Triggers: Backdoor Defense with Denoised PoE
- Title(参考訳): ショートカットからトリガーへ:POEによるバックドアディフェンス
- Authors: Qin Liu, Fei Wang, Chaowei Xiao, Muhao Chen
- Abstract要約: 言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
- 参考スコア(独自算出の注目度): 56.02753561820302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are often at risk of diverse backdoor attacks, especially
data poisoning. Thus, it is important to investigate defense solutions for
addressing them. Existing backdoor defense methods mainly focus on backdoor
attacks with explicit triggers, leaving a universal defense against various
backdoor attacks with diverse triggers largely unexplored. In this paper, we
propose an end-to-end ensemble-based backdoor defense framework, DPoE (Denoised
Product-of-Experts), which is inspired by the shortcut nature of backdoor
attacks, to defend various backdoor attacks. DPoE consists of two models: a
shallow model that captures the backdoor shortcuts and a main model that is
prevented from learning the backdoor shortcuts. To address the label flip
caused by backdoor attackers, DPoE incorporates a denoising design. Experiments
on SST-2 dataset show that DPoE significantly improves the defense performance
against various types of backdoor triggers including word-level,
sentence-level, and syntactic triggers. Furthermore, DPoE is also effective
under a more challenging but practical setting that mixes multiple types of
trigger.
- Abstract(参考訳): 言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
したがって、それらに対処するための防衛ソリューションを調査することが重要である。
既存のバックドア防御法は主に露骨な引き金によるバックドア攻撃に重点を置いており、様々なバックドア攻撃に対する普遍的な防御は、ほとんど探索されていない。
本稿では,様々なバックドア攻撃を防御するために,エンド・ツー・エンドのアンサンブルベースのバックドア防御フレームワークdpoe(denoized product-of-experts)を提案する。
DPoEは、バックドアショートカットをキャプチャする浅いモデルと、バックドアショートカットを学習するのを防ぐメインモデルである。
バックドア攻撃によるラベルフリップに対処するため、DPoEはデノイングデザインを取り入れている。
SST-2データセットの実験では、DPoEは単語レベル、文レベル、構文的トリガを含む様々な種類のバックドアトリガに対する防御性能を著しく向上することが示された。
さらにDPoEは、複数の種類のトリガーを混ぜるより難しいが実用的な設定でも有効である。
関連論文リスト
- Multi-Trigger Backdoor Attacks: More Triggers, More Threats [71.08081471803915]
我々はtextbfmulti-trigger 攻撃の設定によるバックドア攻撃の実際的脅威について検討する。
3種類のマルチトリガー攻撃を提案して調査することにより、同一データセット上の異なるトリガ間の共存、オーバーライト、相互活性化効果に関する重要な理解セットを提供する。
バックドア攻撃と防御の今後の評価を支援するために、マルチトリガーバックドア中毒データセットを作成します。
論文 参考訳(メタデータ) (2024-01-27T04:49:37Z) - BELT: Old-School Backdoor Attacks can Evade the State-of-the-Art Defense
with Backdoor Exclusivity Lifting [23.511329196409722]
本稿では,バックドア攻撃の新たな特徴,すなわちバックドア排他性について検討する。
バックドアの排他性は、入力変動の存在下で有効なバックドアトリガーの能力を測定する。
提案手法は, 従来の4つのバックドア攻撃のステルス性を大幅に向上させ, 攻撃成功率と通常の実用性にはほとんど費用がかからない。
論文 参考訳(メタデータ) (2023-12-08T08:35:16Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - Universal Soldier: Using Universal Adversarial Perturbations for
Detecting Backdoor Attacks [15.917794562400449]
ディープラーニングモデルは、バックドアデータによるトレーニングや、内部ネットワークパラメータの変更によって悪用される。
引き金について事前に知ることなく、クリーンモデルとバックドアモデルとを区別することは困難である。
UAPによるバックドア検出(USB)とリバースエンジニアリング潜在的なバックドアトリガのためのUniversal Soldierという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-01T20:47:58Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Dual-Key Multimodal Backdoors for Visual Question Answering [26.988750557552983]
マルチモーダルネットワークは、Dual-Key Multimodal Backdoorsと呼ばれる新しいタイプの攻撃に対して脆弱であることを示す。
この攻撃は、最先端のネットワークが使用する複雑な融合機構を利用して、効果的でステルス的なバックドアを埋め込む。
本稿では,視覚的質問応答(VQA)タスクにおけるマルチモーダルバックドアについて,複数のアーキテクチャと視覚的特徴バックボーンを用いた広範な検討を行う。
論文 参考訳(メタデータ) (2021-12-14T18:59:52Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Backdoor Attack in the Physical World [49.64799477792172]
ディープニューラルネットワーク(DNN)に隠れたバックドアを注入するバックドア攻撃
既存のバックドア攻撃のほとんどは、トレーニングおよびテスト画像にまたがる静的トリガ、すなわち$$トリガの設定を採用した。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、この攻撃パラダイムは脆弱であることを示す。
論文 参考訳(メタデータ) (2021-04-06T08:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。