論文の概要: Punctuation Matters! Stealthy Backdoor Attack for Language Models
- arxiv url: http://arxiv.org/abs/2312.15867v1
- Date: Tue, 26 Dec 2023 03:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:11:12.184296
- Title: Punctuation Matters! Stealthy Backdoor Attack for Language Models
- Title(参考訳): Punctuation Matters!
言語モデルのステルスバックドア攻撃
- Authors: Xuan Sheng, Zhicheng Li, Zhaoyang Han, Xiangmao Chang, Piji Li
- Abstract要約: バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 36.91297828347229
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent studies have pointed out that natural language processing (NLP) models
are vulnerable to backdoor attacks. A backdoored model produces normal outputs
on the clean samples while performing improperly on the texts with triggers
that the adversary injects. However, previous studies on textual backdoor
attack pay little attention to stealthiness. Moreover, some attack methods even
cause grammatical issues or change the semantic meaning of the original texts.
Therefore, they can easily be detected by humans or defense systems. In this
paper, we propose a novel stealthy backdoor attack method against textual
models, which is called \textbf{PuncAttack}. It leverages combinations of
punctuation marks as the trigger and chooses proper locations strategically to
replace them. Through extensive experiments, we demonstrate that the proposed
method can effectively compromise multiple models in various tasks. Meanwhile,
we conduct automatic evaluation and human inspection, which indicate the
proposed method possesses good performance of stealthiness without bringing
grammatical issues and altering the meaning of sentences.
- Abstract(参考訳): 近年の研究では、自然言語処理(NLP)モデルがバックドア攻撃に弱いことが指摘されている。
バックドア付きモデルはクリーンなサンプルに対して正常な出力を生成し、敵が注入するトリガーで不適切にテキスト上で実行する。
しかし、以前のテキストバックドア攻撃の研究はステルス性にほとんど注意を払わなかった。
さらに、いくつかの攻撃方法は文法上の問題を引き起こしたり、元のテキストの意味を変更したりする。
したがって、人間や防衛システムによって容易に検出できる。
本稿では,テキストモデルに対する新しいステルスバックドア攻撃法を提案し,その手法を \textbf{puncattack} と呼ぶ。
引き金として句読点の組み合わせを利用し、それらを置き換えるために戦略的に適切な位置を選択する。
広範な実験により,提案手法は様々なタスクにおいて,複数のモデルに効果的に妥協できることを実証する。
一方,提案手法は,文法的な問題を生じさせることなく,文の意味を変えることなく,ステルスネスの優れた性能を有することを示す自動評価と人的検査を行う。
関連論文リスト
- Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。