論文の概要: Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2402.18945v1
- Date: Thu, 29 Feb 2024 08:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-01 15:31:54.773968
- Title: Syntactic Ghost: An Imperceptible General-purpose Backdoor Attacks on
Pre-trained Language Models
- Title(参考訳): Syntactic Ghost: 事前訓練された言語モデルに対する知覚できない汎用バックドア攻撃
- Authors: Pengzhou Cheng, Wei Du, Zongru Wu, Fengwei Zhang, Libo Chen and
Gongshen Liu
- Abstract要約: 我々は、textbfSyntactic Ghost (synGhost) と呼ばれる、目に見えない、一般的なバックドア移植を実現するための新しいアプローチを提案する。
特に、この方法は、あらかじめ定義された構文構造が異なる有毒なサンプルをステルストリガーとして敵対的に操作する。
シンゴーストは、難易度、細粒化、提案された最大エントロピーに基づく3つの対策に対して受容できない。
- 参考スコア(独自算出の注目度): 16.525916641619673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have been found susceptible to backdoor
attacks, which can transfer vulnerabilities to various downstream tasks.
However, existing PLM backdoors are conducted with explicit triggers under the
manually aligned, thus failing to satisfy expectation goals simultaneously in
terms of effectiveness, stealthiness, and universality. In this paper, we
propose a novel approach to achieve invisible and general backdoor
implantation, called \textbf{Syntactic Ghost} (synGhost for short).
Specifically, the method hostilely manipulates poisoned samples with different
predefined syntactic structures as stealth triggers and then implants the
backdoor to pre-trained representation space without disturbing the primitive
knowledge. The output representations of poisoned samples are distributed as
uniformly as possible in the feature space via contrastive learning, forming a
wide range of backdoors. Additionally, in light of the unique properties of
syntactic triggers, we introduce an auxiliary module to drive the PLMs to learn
this knowledge in priority, which can alleviate the interference between
different syntactic structures. Experiments show that our method outperforms
the previous methods and achieves the predefined objectives. Not only do severe
threats to various natural language understanding (NLU) tasks on two tuning
paradigms but also to multiple PLMs. Meanwhile, the synGhost is imperceptible
against three countermeasures based on perplexity, fine-pruning, and the
proposed maxEntropy.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、さまざまな下流タスクに脆弱性を転送するバックドア攻撃の影響を受けやすい。
しかしながら、既存のPLMバックドアは手動で手動で明示的なトリガーで実行され、有効性、ステルス性、普遍性の観点から期待目標を同時に満たさない。
本稿では,非表示で汎用的なバックドア植込みを実現するための新しいアプローチである \textbf{syntactic ghost} (synghost,略してsynghost)を提案する。
具体的には、異なる事前定義された構文構造を持つ有毒なサンプルをステルストリガーとして敵対的に操作し、原始的な知識を邪魔することなく、バックドアを訓練済みの表現空間に移植する。
有毒サンプルの出力表現は、対照的な学習を通じて特徴空間に可能な限り均一に分散され、幅広いバックドアを形成する。
さらに,構文的トリガーのユニークな特性に照らして,この知識を優先的に学習するためにplmを駆動する補助モジュールを導入し,異なる構文構造間の干渉を緩和する。
実験の結果,提案手法は従来の手法よりも優れ,事前定義された目的を達成することがわかった。
2つのチューニングパラダイム上の様々な自然言語理解(NLU)タスクに対して深刻な脅威を与えるだけでなく、複数のPLMにも脅威を与える。
一方, シンゴーストは, 難易度, 微粒化, 提案した最大エントロピーに基づく3つの対策に対して受容できない。
関連論文リスト
- $\textit{Agents Under Siege}$: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks [32.42704787246349]
マルチエージェント大規模言語モデル(LLM)システムは,エージェント間の通信や分散推論に依存するため,新たな敵対的リスクを生み出す。
本研究では,トークンの帯域幅の制限,メッセージ配信のレイテンシ,防御機構といった制約のある実用的システムへの攻撃に革新的な焦点をあてる。
我々は、レイテンシと帯域幅制約のあるネットワークトポロジ間の迅速な分散を最適化し、分散安全機構をバイパスする、$textitpermutation-invariant adversarial attack$を設計する。
論文 参考訳(メタデータ) (2025-03-31T20:43:56Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - NoiseAttack: An Evasive Sample-Specific Multi-Targeted Backdoor Attack Through White Gaussian Noise [0.19820694575112383]
ディープラーニング開発にサードパーティのデータを使用する場合、バックドア攻撃は重大な脅威となる。
我々は,新しいサンプル特異的なマルチターゲットバックドアアタック,すなわちNossAttackを紹介した。
この作業は、複数のターゲットクラスを生成する目的でビジョンバックドアアタックを起動する、この種の最初のものだ。
論文 参考訳(メタデータ) (2024-09-03T19:24:46Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - How many dimensions are required to find an adversarial example? [0.0]
敵の脆弱性が$dim(V)$に依存するかを検討する。
特に、$ellp$ノルム制約による標準PGD攻撃の対角的成功は、$epsilonの単調に増加する関数のように振る舞うことを示す。
論文 参考訳(メタデータ) (2023-03-24T17:36:15Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Kallima: A Clean-label Framework for Textual Backdoor Attacks [25.332731545200808]
マイメシススタイルのバックドアサンプルを合成するための,最初のクリーンラベルフレームワークKallimaを提案する。
我々は,対象クラスに属する入力を逆方向の摂動で修正し,モデルがバックドアトリガに依存するようにした。
論文 参考訳(メタデータ) (2022-06-03T21:44:43Z) - Under-confidence Backdoors Are Resilient and Stealthy Backdoors [35.57996363193643]
バックドア攻撃は、被害者モデルが事前に設計されたバックドアで注入された任意の入力に対して設計された出力を生成することを目的としている。
高攻撃成功率を達成するため、既存の攻撃手法のほとんどは、汚染されたサンプルのラベルをターゲットクラスに変更している。
この慣行は、しばしば被害者モデルをバックドアに過度に適合させ、攻撃は出力制御に非常に効果的であるが、人間の検査や自動防御アルゴリズムによって容易に識別できる。
論文 参考訳(メタデータ) (2022-02-19T01:31:41Z) - Qu-ANTI-zation: Exploiting Quantization Artifacts for Achieving
Adversarial Outcomes [5.865029600972316]
量子化(quantization)は、ニューラルネットワークのパラメータ表現を浮動小数点数から低精度の数値に変換する技術である。
逆量子化結果を実装するための新しいトレーニングフレームワークを提案する。
1つの妥協されたモデルが複数の量子化スキームを破ることを示す。
論文 参考訳(メタデータ) (2021-10-26T10:09:49Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Hidden Backdoors in Human-Centric Language Models [12.694861859949585]
私たちはテキストバックドア攻撃の秘密と自然なトリガーを作成します。
隠れたバックドアを2つの最先端のトリガー埋め込みメソッドにデプロイします。
提案した隠れバックドアは,3つの下流セキュリティクリティカルなNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-05-01T04:41:00Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Towards Defending Multiple $\ell_p$-norm Bounded Adversarial
Perturbations via Gated Batch Normalization [120.99395850108422]
既存の敵防衛は、個々の摂動に対するモデル堅牢性を改善するのが一般的である。
最近の手法では、複数の$ell_p$球における敵攻撃に対するモデルロバスト性を改善するが、各摂動型に対するそれらの性能は、まだ十分ではない。
我々は,複数の$ell_pの有界摂動を守るために,摂動不変予測器を逆向きに訓練するGated Batch Normalization (GBN)を提案する。
論文 参考訳(メタデータ) (2020-12-03T02:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。