論文の概要: Training-free Lexical Backdoor Attacks on Language Models
- arxiv url: http://arxiv.org/abs/2302.04116v1
- Date: Wed, 8 Feb 2023 15:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:03:26.215321
- Title: Training-free Lexical Backdoor Attacks on Language Models
- Title(参考訳): 言語モデルによる無訓練語彙バックドア攻撃
- Authors: Yujin Huang, Terry Yue Zhuo, Qiongkai Xu, Han Hu, Xingliang Yuan,
Chunyang Chen
- Abstract要約: 言語モデルに対するトレーニングフリーバックドアアタックとして,トレーニングフリーのバックドアアタック(TFLexAttack)を提案する。
我々の攻撃は、埋め込み辞書を操作することで、言語モデルのトークン化子に語彙トリガーを注入することで達成される。
攻撃の有効性と普遍性を示すため,9つの言語モデルに基づく3つのNLPタスクについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 30.91728116238065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language models have achieved tremendous success across various
natural language processing (NLP) applications. Nevertheless, language models
are vulnerable to backdoor attacks, which inject stealthy triggers into models
for steering them to undesirable behaviors. Most existing backdoor attacks,
such as data poisoning, require further (re)training or fine-tuning language
models to learn the intended backdoor patterns. The additional training process
however diminishes the stealthiness of the attacks, as training a language
model usually requires long optimization time, a massive amount of data, and
considerable modifications to the model parameters. In this work, we propose
Training-Free Lexical Backdoor Attack (TFLexAttack) as the first training-free
backdoor attack on language models. Our attack is achieved by injecting lexical
triggers into the tokenizer of a language model via manipulating its embedding
dictionary using carefully designed rules. These rules are explainable to human
developers which inspires attacks from a wider range of hackers. The sparse
manipulation of the dictionary also habilitates the stealthiness of our attack.
We conduct extensive experiments on three dominant NLP tasks based on nine
language models to demonstrate the effectiveness and universality of our
attack. The code of this work is available at
https://github.com/Jinxhy/TFLexAttack.
- Abstract(参考訳): 大規模言語モデルは様々な自然言語処理(nlp)アプリケーションで大きな成功を収めている。
それでも、言語モデルはバックドア攻撃に弱いため、ステルス的なトリガーをモデルに注入することで、好ましくない振る舞いをコントロールできる。
データ中毒のような既存のバックドア攻撃のほとんどは、意図したバックドアパターンを学ぶために、さらなる(再)トレーニングまたは微調整言語モデルを必要とする。
しかし、追加のトレーニングプロセスは、通常、言語モデルのトレーニングには長い最適化時間、大量のデータ、モデルパラメータの大幅な変更が必要であるため、攻撃のステルス性が低下する。
本稿では,言語モデルに対する最初のトレーニングフリーバックドア攻撃として,トレーニングフリーの語彙バックドア攻撃(tflexattack)を提案する。
この攻撃は,言語モデルのトークン化に語彙トリガを注入し,その埋め込み辞書を注意深く設計したルールで操作することで達成される。
これらのルールは、幅広いハッカーからの攻撃を誘発する人間開発者に説明できる。
辞書のまばらな操作は、我々の攻撃のステルス性も和らげる。
攻撃の有効性と普遍性を示すため,9つの言語モデルに基づく3つのNLPタスクについて広範な実験を行った。
この作業のコードはhttps://github.com/jinxhy/tflexattackで入手できる。
関連論文リスト
- Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning [14.011140902511135]
In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスクにおいて高い有効性を示している。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
我々は、コンテキスト内学習に基づく大規模言語モデルをターゲットに、ICLAttackという新しいバックドアアタック手法を設計する。
論文 参考訳(メタデータ) (2024-01-11T14:38:19Z) - Imperio: Language-Guided Backdoor Attacks for Arbitrary Model Control [14.216965417902953]
本稿では,NLPモデルの言語理解機能を活用し,バックドア攻撃を増強するImperioを提案する。
敵は言語誘導命令を通じて任意の出力で被害者モデルを操作できる。
3つのデータセット、5つの攻撃、9つの防御実験により、Imperioの有効性が確認された。
論文 参考訳(メタデータ) (2024-01-02T07:57:04Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - MSDT: Masked Language Model Scoring Defense in Text Domain [16.182765935007254]
我々は,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。
実験結果から,テキスト領域におけるバックドア攻撃に対する防御の観点から,本手法が有効かつ建設的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T06:46:47Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Neurotoxin: Durable Backdoors in Federated Learning [73.82725064553827]
連合学習システムは バックドア攻撃の訓練中に 固有の脆弱性がある
我々は,既存のバックドア攻撃に対する単純な一直線修正であるニューロトキシンを提案する。
論文 参考訳(メタデータ) (2022-06-12T16:52:52Z) - BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation
Models [25.938195038044448]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックであるNameを提案する。
相手は、事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。
実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で妥協できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-06T02:48:58Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - ONION: A Simple and Effective Defense Against Textual Backdoor Attacks [91.83014758036575]
バックドア攻撃は、ディープニューラルネットワーク(DNN)に対する創発的な訓練時間の脅威である
本論文では,ONION という,シンプルで効果的なテキストバックドア・ディフェンスを提案する。
実験では,5種類のバックドア攻撃に対するBiLSTMとBERTの防御効果を示す。
論文 参考訳(メタデータ) (2020-11-20T12:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。