論文の概要: Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2402.18945v1
- Date: Thu, 29 Feb 2024 08:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:31:54.773968
- Title: Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on
Pre-trained Language Models
- Title(参考訳): Syntactic Ghost: 事前訓練された言語モデルに対する知覚できない汎用バックドア攻撃
- Authors: Pengzhou Cheng, Wei Du, Zongru Wu, Fengwei Zhang, Libo Chen and
Gongshen Liu
- Abstract要約: 我々は、textbfSyntactic Ghost (synGhost) と呼ばれる、目に見えない、一般的なバックドア移植を実現するための新しいアプローチを提案する。
特に、この方法は、あらかじめ定義された構文構造が異なる有毒なサンプルをステルストリガーとして敵対的に操作する。
シンゴーストは、難易度、細粒化、提案された最大エントロピーに基づく3つの対策に対して受容できない。
- 参考スコア(独自算出の注目度): 16.525916641619673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have been found susceptible to backdoor
attacks, which can transfer vulnerabilities to various downstream tasks.
However, existing PLM backdoors are conducted with explicit triggers under the
manually aligned, thus failing to satisfy expectation goals simultaneously in
terms of effectiveness, stealthiness, and universality. In this paper, we
propose a novel approach to achieve invisible and general backdoor
implantation, called \textbf{Syntactic Ghost} (synGhost for short).
Specifically, the method hostilely manipulates poisoned samples with different
predefined syntactic structures as stealth triggers and then implants the
backdoor to pre-trained representation space without disturbing the primitive
knowledge. The output representations of poisoned samples are distributed as
uniformly as possible in the feature space via contrastive learning, forming a
wide range of backdoors. Additionally, in light of the unique properties of
syntactic triggers, we introduce an auxiliary module to drive the PLMs to learn
this knowledge in priority, which can alleviate the interference between
different syntactic structures. Experiments show that our method outperforms
the previous methods and achieves the predefined objectives. Not only do severe
threats to various natural language understanding (NLU) tasks on two tuning
paradigms but also to multiple PLMs. Meanwhile, the synGhost is imperceptible
against three countermeasures based on perplexity, fine-pruning, and the
proposed maxEntropy.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、さまざまな下流タスクに脆弱性を転送するバックドア攻撃の影響を受けやすい。
しかしながら、既存のPLMバックドアは手動で手動で明示的なトリガーで実行され、有効性、ステルス性、普遍性の観点から期待目標を同時に満たさない。
本稿では,非表示で汎用的なバックドア植込みを実現するための新しいアプローチである \textbf{syntactic ghost} (synghost,略してsynghost)を提案する。
具体的には、異なる事前定義された構文構造を持つ有毒なサンプルをステルストリガーとして敵対的に操作し、原始的な知識を邪魔することなく、バックドアを訓練済みの表現空間に移植する。
有毒サンプルの出力表現は、対照的な学習を通じて特徴空間に可能な限り均一に分散され、幅広いバックドアを形成する。
さらに,構文的トリガーのユニークな特性に照らして,この知識を優先的に学習するためにplmを駆動する補助モジュールを導入し,異なる構文構造間の干渉を緩和する。
実験の結果,提案手法は従来の手法よりも優れ,事前定義された目的を達成することがわかった。
2つのチューニングパラダイム上の様々な自然言語理解(NLU)タスクに対して深刻な脅威を与えるだけでなく、複数のPLMにも脅威を与える。
一方, シンゴーストは, 難易度, 微粒化, 提案した最大エントロピーに基づく3つの対策に対して受容できない。
関連論文リスト
- LOTUS: Evasive and Resilient Backdoor Attacks through Sub-Partitioning [49.174341192722615]
バックドア攻撃は、ディープラーニングアプリケーションに重大なセキュリティ脅威をもたらす。
近年の研究では、特殊な変換機能によって作られたサンプル特異的に見えないトリガーを用いた攻撃が導入されている。
我々は、回避性とレジリエンスの両方に対処するために、新しいバックドアアタックLOTUSを導入する。
論文 参考訳(メタデータ) (2024-03-25T21:01:29Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - UOR: Universal Backdoor Attacks on Pre-trained Language Models [9.968755838867178]
既存のトレーニング済み言語モデル(PLM)に対するバックドア攻撃のほとんどは、未ターゲットでタスク固有のものである。
まず, PLMに対するより脅迫的なバックドア攻撃が満足すべき要件をまとめた上で, UORと呼ばれる新たなバックドア攻撃手法を提案する。
具体的には,各種PLMに対するトリガのより均一で普遍的な出力表現を自動的に学習できる有毒な教師付きコントラスト学習を定義する。
論文 参考訳(メタデータ) (2023-05-16T16:11:48Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。