論文の概要: Attention-Enhancing Backdoor Attacks Against BERT-based Models
- arxiv url: http://arxiv.org/abs/2310.14480v2
- Date: Wed, 25 Oct 2023 00:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 11:03:12.974390
- Title: Attention-Enhancing Backdoor Attacks Against BERT-based Models
- Title(参考訳): BERTモデルに対する意図的バックドア攻撃
- Authors: Weimin Lyu, Songzhu Zheng, Lu Pang, Haibin Ling, Chao Chen
- Abstract要約: バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
- 参考スコア(独自算出の注目度): 54.070555070629105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have revealed that \textit{Backdoor Attacks} can threaten the
safety of natural language processing (NLP) models. Investigating the
strategies of backdoor attacks will help to understand the model's
vulnerability. Most existing textual backdoor attacks focus on generating
stealthy triggers or modifying model weights. In this paper, we directly target
the interior structure of neural networks and the backdoor mechanism. We
propose a novel Trojan Attention Loss (TAL), which enhances the Trojan behavior
by directly manipulating the attention patterns. Our loss can be applied to
different attacking methods to boost their attack efficacy in terms of attack
successful rates and poisoning rates. It applies to not only traditional
dirty-label attacks, but also the more challenging clean-label attacks. We
validate our method on different backbone models (BERT, RoBERTa, and
DistilBERT) and various tasks (Sentiment Analysis, Toxic Detection, and Topic
Classification).
- Abstract(参考訳): 近年の研究では、textit{Backdoor Attacks} が自然言語処理(NLP)モデルの安全性を脅かす可能性があることが明らかになった。
バックドア攻撃の戦略を調査することは、モデルの脆弱性を理解するのに役立つ。
既存のテキストバックドア攻撃のほとんどは、ステルストリガーの生成やモデル重み付けの変更に焦点を当てている。
本稿では,ニューラルネットワークの内部構造とバックドア機構を直接対象とする。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
我々の損失は、攻撃の成功率と中毒率の観点から攻撃効果を高める様々な攻撃方法に適用できる。
従来のダーティラベル攻撃だけでなく、より困難なクリーンラベル攻撃にも適用される。
本研究では,異なるバックボーンモデル (BERT, RoBERTa, DistilBERT) と各種タスク (Sentiment Analysis, Toxic Detection, Topic Classification) について検証を行った。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - SATBA: An Invisible Backdoor Attack Based On Spatial Attention [7.405457329942725]
バックドア攻撃には、隠れたトリガーパターンを含むデータセットに対するDeep Neural Network(DNN)のトレーニングが含まれる。
既存のバックドア攻撃のほとんどは、2つの重大な欠点に悩まされている。
空間的注意とU-netモデルを用いてこれらの制限を克服するSATBAという新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2023-02-25T10:57:41Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Natural Backdoor Attack on Text Data [15.35163515187413]
本論文では,NLPモデルに対するテキストバックドア攻撃を提案する。
テキストデータにトリガーを発生させ,修正範囲,人間認識,特殊事例に基づいて,さまざまな種類のトリガーを調査する。
その結果,テキスト分類作業において100%バックドア攻撃の成功率と0.83%の犠牲となる優れた性能を示した。
論文 参考訳(メタデータ) (2020-06-29T16:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。