論文の概要: Hidden Backdoors in Human-Centric Language Models
- arxiv url: http://arxiv.org/abs/2105.00164v1
- Date: Sat, 1 May 2021 04:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 10:43:40.409539
- Title: Hidden Backdoors in Human-Centric Language Models
- Title(参考訳): 人中心言語モデルにおける隠れたバックドア
- Authors: Shaofeng Li, Hui Liu, Tian Dong, Benjamin Zi Hao Zhao, Minhui Xue,
Haojin Zhu, Jialiang Lu
- Abstract要約: 私たちはテキストバックドア攻撃の秘密と自然なトリガーを作成します。
隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。
提案した隠れバックドアは,3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 12.694861859949585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) systems have been proven to be vulnerable
to backdoor attacks, whereby hidden features (backdoors) are trained into a
language model and may only be activated by specific inputs (called triggers),
to trick the model into producing unexpected behaviors. In this paper, we
create covert and natural triggers for textual backdoor attacks, \textit{hidden
backdoors}, where triggers can fool both modern language models and human
inspection. We deploy our hidden backdoors through two state-of-the-art trigger
embedding methods. The first approach via homograph replacement, embeds the
trigger into deep neural networks through the visual spoofing of lookalike
character replacement. The second approach uses subtle differences between text
generated by language models and real natural text to produce trigger sentences
with correct grammar and high fluency. We demonstrate that the proposed hidden
backdoors can be effective across three downstream security-critical NLP tasks,
representative of modern human-centric NLP systems, including toxic comment
detection, neural machine translation (NMT), and question answering (QA). Our
two hidden backdoor attacks can achieve an Attack Success Rate (ASR) of at
least $97\%$ with an injection rate of only $3\%$ in toxic comment detection,
$95.1\%$ ASR in NMT with less than $0.5\%$ injected data, and finally $91.12\%$
ASR against QA updated with only 27 poisoning data samples on a model
previously trained with 92,024 samples (0.029\%). We are able to demonstrate
the adversary's high success rate of attacks, while maintaining functionality
for regular users, with triggers inconspicuous by the human administrators.
- Abstract(参考訳): 自然言語処理(nlp)システムはバックドア攻撃に対して脆弱であることが証明されており、隠れた機能(バックドア)は言語モデルに訓練され、特定の入力(トリガーと呼ばれる)によってのみ活性化され、モデルに予期しない振る舞いを誘導する。
本稿では,テキストバックドア攻撃の隠蔽と自然なトリガーである‘textit{hidden backdoors} を作成し,現代の言語モデルと人間の検査の両方を騙すことができる。
隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。
homograph置換による最初のアプローチは、ルックアライクな文字置換の視覚的なスプーフィングを通じて、ディープニューラルネットワークにトリガーを埋め込む。
第二のアプローチは、言語モデルによって生成されたテキストと実際の自然なテキストの微妙な違いを利用して、正しい文法と高い流用率でトリガー文を生成する。
提案手法は,有毒なコメント検出,ニューラルネットワーク翻訳(NMT),質問応答(QA)を含む,現代人中心のNLPシステムを代表する3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。
2つの隠れたバックドア攻撃は、少なくとも$7\%$の攻撃成功率(asr)を、わずか$3\%$の有毒なコメント検出率、$0.5\%$のインジェクションデータ未満のnmtの$5.1\%$ asr、そして最終的に、92,024のサンプル(0.029\%)でトレーニングされたモデル上で、わずか27の有毒データサンプルで更新されたqaに対する$1.12\%$ asrを達成できる。
我々は、人間の管理者が目立たないトリガーで、通常のユーザーのために機能を維持しながら、敵の高い攻撃成功率を示すことができる。
関連論文リスト
- T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T03:26:20Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - BDMMT: Backdoor Sample Detection for Language Models through Model
Mutation Testing [14.88575793895578]
本稿では,深層モデル変異検査に基づく防御手法を提案する。
バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。
次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文 参考訳(メタデータ) (2023-01-25T05:24:46Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Mitigating backdoor attacks in LSTM-based Text Classification Systems by
Backdoor Keyword Identification [0.0]
テキスト分類システムでは、モデルに挿入されたバックドアがスパムや悪意のある音声を検知から逃れる可能性がある。
本稿では,内LSTMニューロンの変化を分析することによって,バックドア攻撃を緩和するためのバックドアキーワード識別(BKI)と呼ばれる防御手法を提案する。
本手法は,IMDB,DBpedia,20のニュースグループ,Reuters-21578データセットの4つの異なるテキスト分類ダットセットで評価する。
論文 参考訳(メタデータ) (2020-07-11T09:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。