論文の概要: SynGhost: Imperceptible and Universal Task-agnostic Backdoor Attack in Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2402.18945v2
- Date: Fri, 24 May 2024 15:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 20:56:39.343259
- Title: SynGhost: Imperceptible and Universal Task-agnostic Backdoor Attack in Pre-trained Language Models
- Title(参考訳): SynGhost:事前訓練された言語モデルにおける非知覚的および普遍的タスク非依存のバックドアアタック
- Authors: Pengzhou Cheng, Wei Du, Zongru Wu, Fengwei Zhang, Libo Chen, Gongshen Liu,
- Abstract要約: 事前学習は、下流タスクにおいて顕著なパフォーマンスを達成するために、事前訓練された言語モデル(PLM)をデプロイするために必要なフェーズであった。
バックドア攻撃は,タスク非依存のエントリポイントとして,そのようなフェーズを悪用することを示す。
PLMの非知覚的かつ普遍的なタスクに依存しないバックドア攻撃である$mathttSynGhost$を提示する。
- 参考スコア(独自算出の注目度): 15.59613994912779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has been a necessary phase for deploying pre-trained language models (PLMs) to achieve remarkable performance in downstream tasks. However, we empirically show that backdoor attacks exploit such a phase as a vulnerable entry point for task-agnostic. In this paper, we first propose $\mathtt{maxEntropy}$, an entropy-based poisoning filtering defense, to prove that existing task-agnostic backdoors are easily exposed, due to explicit triggers used. Then, we present $\mathtt{SynGhost}$, an imperceptible and universal task-agnostic backdoor attack in PLMs. Specifically, $\mathtt{SynGhost}$ hostilely manipulates clean samples through different syntactic and then maps the backdoor to representation space without disturbing the primitive representation. $\mathtt{SynGhost}$ further leverages contrastive learning to achieve universal, which performs a uniform distribution of backdoors in the representation space. In light of the syntactic properties, we also introduce an awareness module to alleviate the interference between different syntactic. Experiments show that $\mathtt{SynGhost}$ holds more serious threats. Not only do severe harmfulness to various downstream tasks on two tuning paradigms but also to any PLMs. Meanwhile, $\mathtt{SynGhost}$ is imperceptible against three countermeasures based on perplexity, fine-pruning, and the proposed $\mathtt{maxEntropy}$.
- Abstract(参考訳): 事前学習は、下流タスクにおいて顕著なパフォーマンスを達成するために、事前訓練された言語モデル(PLM)をデプロイするために必要なフェーズであった。
しかし,バックドア攻撃はタスク非依存のエントリポイントとして,そのようなフェーズを悪用していることを実証的に示す。
本稿では,まずエントロピーをベースとした防毒対策である$\mathtt{maxEntropy}$を提案する。
次に、 PLM における非受容的で普遍的なタスク非依存のバックドア攻撃である $\mathtt{SynGhost}$ を提示する。
具体的には、$\mathtt{SynGhost}$ hostilelyは異なる構文を通してクリーンなサンプルを操作し、プリミティブ表現を邪魔することなくバックドアを表現空間にマップする。
$\mathtt{SynGhost}$はさらに、コントラスト学習を活用して普遍性を実現し、表現空間内のバックドアの均一な分布を実行する。
また,構文特性の観点から,異なる構文間の干渉を軽減するための認識モジュールも導入する。
実験によると、$\mathtt{SynGhost}$はより深刻な脅威を持つ。
2つのチューニングパラダイムで様々な下流タスクに深刻な有害性を与えるだけでなく、どのPLMにも深刻な有害性を与える。
一方、$\mathtt{SynGhost}$ は、パープレキシティ、ファインプルーニング、提案された $\mathtt{maxEntropy}$ に基づく3つの対策に対して知覚できない。
関連論文リスト
- T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - How many dimensions are required to find an adversarial example? [0.0]
敵の脆弱性が$dim(V)$に依存するかを検討する。
特に、$ellp$ノルム制約による標準PGD攻撃の対角的成功は、$epsilonの単調に増加する関数のように振る舞うことを示す。
論文 参考訳(メタデータ) (2023-03-24T17:36:15Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Qu-ANTI-zation: Exploiting Quantization Artifacts for Achieving
Adversarial Outcomes [5.865029600972316]
量子化(quantization)は、ニューラルネットワークのパラメータ表現を浮動小数点数から低精度の数値に変換する技術である。
逆量子化結果を実装するための新しいトレーニングフレームワークを提案する。
1つの妥協されたモデルが複数の量子化スキームを破ることを示す。
論文 参考訳(メタデータ) (2021-10-26T10:09:49Z) - Hidden Backdoors in Human-Centric Language Models [12.694861859949585]
私たちはテキストバックドア攻撃の秘密と自然なトリガーを作成します。
隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。
提案した隠れバックドアは,3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-05-01T04:41:00Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Towards Defending Multiple $\ell_p$-norm Bounded Adversarial
Perturbations via Gated Batch Normalization [120.99395850108422]
既存の敵防衛は、個々の摂動に対するモデル堅牢性を改善するのが一般的である。
最近の手法では、複数の$ell_p$球における敵攻撃に対するモデルロバスト性を改善するが、各摂動型に対するそれらの性能は、まだ十分ではない。
我々は,複数の$ell_pの有界摂動を守るために,摂動不変予測器を逆向きに訓練するGated Batch Normalization (GBN)を提案する。
論文 参考訳(メタデータ) (2020-12-03T02:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。