論文の概要: Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger
- arxiv url: http://arxiv.org/abs/2105.12400v1
- Date: Wed, 26 May 2021 08:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:24:22.951661
- Title: Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger
- Title(参考訳): hidden killer: 構文トリガーによる見えないテキストのバックドア攻撃
- Authors: Fanchao Qi, Mukai Li, Yangyi Chen, Zhengyan Zhang, Zhiyuan Liu,
Yasheng Wang, Maosong Sun
- Abstract要約: 本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
- 参考スコア(独自算出の注目度): 48.59965356276387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Backdoor attacks are a kind of insidious security threat against machine
learning models. After being injected with a backdoor in training, the victim
model will produce adversary-specified outputs on the inputs embedded with
predesigned triggers but behave properly on normal inputs during inference. As
a sort of emergent attack, backdoor attacks in natural language processing
(NLP) are investigated insufficiently. As far as we know, almost all existing
textual backdoor attack methods insert additional contents into normal samples
as triggers, which causes the trigger-embedded samples to be detected and the
backdoor attacks to be blocked without much effort. In this paper, we propose
to use syntactic structure as the trigger in textual backdoor attacks. We
conduct extensive experiments to demonstrate that the syntactic trigger-based
attack method can achieve comparable attack performance (almost 100\% success
rate) to the insertion-based methods but possesses much higher invisibility and
stronger resistance to defenses. These results also reveal the significant
insidiousness and harmfulness of textual backdoor attacks. All the code and
data of this paper can be obtained at https://github.com/thunlp/HiddenKiller.
- Abstract(参考訳): バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威の一種だ。
トレーニングでバックドアを注入された後、被害者モデルは、事前に設計されたトリガーが埋め込まれた入力に対して、逆特定された出力を生成するが、推論中に通常の入力に対して適切に振る舞う。
創発的攻撃の一種として、自然言語処理(NLP)におけるバックドア攻撃は不十分である。
我々の知る限り、ほとんどの既存のテキストバックドア攻撃手法は、通常のサンプルに追加の内容をトリガーとして挿入しているため、トリガー埋め込みされたサンプルが検出され、バックドア攻撃はそれほどの手間をかけずにブロックされる。
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
本手法はインサート・ベースの手法と同等の攻撃性能(ほぼ100%成功率)を達成できるが,より視認性が高く,防御に対する強い抵抗力を有することを示すため,広範な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の悪影響が明らかとなった。
この論文のコードとデータは、https://github.com/thunlp/HiddenKiller.comで入手できる。
関連論文リスト
- Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。