論文の概要: Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2402.18945v1
- Date: Thu, 29 Feb 2024 08:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:31:54.773968
- Title: Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on
Pre-trained Language Models
- Title(参考訳): Syntactic Ghost: 事前訓練された言語モデルに対する知覚できない汎用バックドア攻撃
- Authors: Pengzhou Cheng, Wei Du, Zongru Wu, Fengwei Zhang, Libo Chen and
Gongshen Liu
- Abstract要約: 我々は、textbfSyntactic Ghost (synGhost) と呼ばれる、目に見えない、一般的なバックドア移植を実現するための新しいアプローチを提案する。
特に、この方法は、あらかじめ定義された構文構造が異なる有毒なサンプルをステルストリガーとして敵対的に操作する。
シンゴーストは、難易度、細粒化、提案された最大エントロピーに基づく3つの対策に対して受容できない。
- 参考スコア(独自算出の注目度): 16.525916641619673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have been found susceptible to backdoor
attacks, which can transfer vulnerabilities to various downstream tasks.
However, existing PLM backdoors are conducted with explicit triggers under the
manually aligned, thus failing to satisfy expectation goals simultaneously in
terms of effectiveness, stealthiness, and universality. In this paper, we
propose a novel approach to achieve invisible and general backdoor
implantation, called \textbf{Syntactic Ghost} (synGhost for short).
Specifically, the method hostilely manipulates poisoned samples with different
predefined syntactic structures as stealth triggers and then implants the
backdoor to pre-trained representation space without disturbing the primitive
knowledge. The output representations of poisoned samples are distributed as
uniformly as possible in the feature space via contrastive learning, forming a
wide range of backdoors. Additionally, in light of the unique properties of
syntactic triggers, we introduce an auxiliary module to drive the PLMs to learn
this knowledge in priority, which can alleviate the interference between
different syntactic structures. Experiments show that our method outperforms
the previous methods and achieves the predefined objectives. Not only do severe
threats to various natural language understanding (NLU) tasks on two tuning
paradigms but also to multiple PLMs. Meanwhile, the synGhost is imperceptible
against three countermeasures based on perplexity, fine-pruning, and the
proposed maxEntropy.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、さまざまな下流タスクに脆弱性を転送するバックドア攻撃の影響を受けやすい。
しかしながら、既存のPLMバックドアは手動で手動で明示的なトリガーで実行され、有効性、ステルス性、普遍性の観点から期待目標を同時に満たさない。
本稿では,非表示で汎用的なバックドア植込みを実現するための新しいアプローチである \textbf{syntactic ghost} (synghost,略してsynghost)を提案する。
具体的には、異なる事前定義された構文構造を持つ有毒なサンプルをステルストリガーとして敵対的に操作し、原始的な知識を邪魔することなく、バックドアを訓練済みの表現空間に移植する。
有毒サンプルの出力表現は、対照的な学習を通じて特徴空間に可能な限り均一に分散され、幅広いバックドアを形成する。
さらに,構文的トリガーのユニークな特性に照らして,この知識を優先的に学習するためにplmを駆動する補助モジュールを導入し,異なる構文構造間の干渉を緩和する。
実験の結果,提案手法は従来の手法よりも優れ,事前定義された目的を達成することがわかった。
2つのチューニングパラダイム上の様々な自然言語理解(NLU)タスクに対して深刻な脅威を与えるだけでなく、複数のPLMにも脅威を与える。
一方, シンゴーストは, 難易度, 微粒化, 提案した最大エントロピーに基づく3つの対策に対して受容できない。
関連論文リスト
- T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - How many dimensions are required to find an adversarial example? [0.0]
敵の脆弱性が$dim(V)$に依存するかを検討する。
特に、$ellp$ノルム制約による標準PGD攻撃の対角的成功は、$epsilonの単調に増加する関数のように振る舞うことを示す。
論文 参考訳(メタデータ) (2023-03-24T17:36:15Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Qu-ANTI-zation: Exploiting Quantization Artifacts for Achieving
Adversarial Outcomes [5.865029600972316]
量子化(quantization)は、ニューラルネットワークのパラメータ表現を浮動小数点数から低精度の数値に変換する技術である。
逆量子化結果を実装するための新しいトレーニングフレームワークを提案する。
1つの妥協されたモデルが複数の量子化スキームを破ることを示す。
論文 参考訳(メタデータ) (2021-10-26T10:09:49Z) - Hidden Backdoors in Human-Centric Language Models [12.694861859949585]
私たちはテキストバックドア攻撃の秘密と自然なトリガーを作成します。
隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。
提案した隠れバックドアは,3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-05-01T04:41:00Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Towards Defending Multiple $\ell_p$-norm Bounded Adversarial
Perturbations via Gated Batch Normalization [120.99395850108422]
既存の敵防衛は、個々の摂動に対するモデル堅牢性を改善するのが一般的である。
最近の手法では、複数の$ell_p$球における敵攻撃に対するモデルロバスト性を改善するが、各摂動型に対するそれらの性能は、まだ十分ではない。
我々は,複数の$ell_pの有界摂動を守るために,摂動不変予測器を逆向きに訓練するGated Batch Normalization (GBN)を提案する。
論文 参考訳(メタデータ) (2020-12-03T02:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。