論文の概要: TransTroj: Transferable Backdoor Attacks to Pre-trained Models via
Embedding Indistinguishability
- arxiv url: http://arxiv.org/abs/2401.15883v1
- Date: Mon, 29 Jan 2024 04:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:03:41.210448
- Title: TransTroj: Transferable Backdoor Attacks to Pre-trained Models via
Embedding Indistinguishability
- Title(参考訳): TransTroj: 事前訓練されたモデルへのトランスファー可能なバックドアアタック
- Authors: Hao Wang, Tao Xiang, Shangwei Guo, Jialing He, Hangcheng Liu, Tianwei
Zhang
- Abstract要約: 本稿では,トランスポート可能なバックドア攻撃であるTransTrojを提案する。
実験の結果,TransTrojはSOTAタスク非依存のバックドア攻撃よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 65.21878718144663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained models (PTMs) are extensively utilized in various downstream
tasks. Adopting untrusted PTMs may suffer from backdoor attacks, where the
adversary can compromise the downstream models by injecting backdoors into the
PTM. However, existing backdoor attacks to PTMs can only achieve partially
task-agnostic and the embedded backdoors are easily erased during the
fine-tuning process. In this paper, we propose a novel transferable backdoor
attack, TransTroj, to simultaneously meet functionality-preserving, durable,
and task-agnostic. In particular, we first formalize transferable backdoor
attacks as the indistinguishability problem between poisoned and clean samples
in the embedding space. We decompose the embedding indistinguishability into
pre- and post-indistinguishability, representing the similarity of the poisoned
and reference embeddings before and after the attack. Then, we propose a
two-stage optimization that separately optimizes triggers and victim PTMs to
achieve embedding indistinguishability. We evaluate TransTroj on four PTMs and
six downstream tasks. Experimental results show that TransTroj significantly
outperforms SOTA task-agnostic backdoor attacks (18%$\sim$99%, 68% on average)
and exhibits superior performance under various system settings. The code is
available at https://github.com/haowang-cqu/TransTroj .
- Abstract(参考訳): 事前訓練モデル(ptm)は様々な下流タスクで広く使われている。
信頼できない PTM を採用する場合、敵が PTM にバックドアを注入することで、下流モデルに妥協できるバックドア攻撃に悩まされる可能性がある。
しかし, PTM に対する既存のバックドア攻撃は, 部分的にはタスクに依存しず, 組込みバックドアは微調整時に容易に消去できる。
本稿では,機能保存,耐久性,タスク非依存を同時に満たす新しいバックドア攻撃であるtranstrojを提案する。
特に, 埋め込み空間における有毒試料とクリーン試料の区別不能性問題として, 転送可能なバックドア攻撃を定式化する。
攻撃前後の毒と参照の埋め込みの類似性を表わして,前・後区別性への埋め込み不能を分解する。
そこで本研究では,トリガーと被害者ptmを別々に最適化した2段階最適化を提案する。
4つのPTMと6つの下流タスクでTransTrojを評価する。
実験の結果,TransTrojはSOTAタスク非依存のバックドア攻撃(平均68%,99%)を著しく上回り,各種システム設定下では優れた性能を示した。
コードはhttps://github.com/haowang-cqu/transtrojで入手できる。
関連論文リスト
- Defending Against Weight-Poisoning Backdoor Attacks for
Parameter-Efficient Fine-Tuning [60.38625902569202]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Towards Stable Backdoor Purification through Feature Shift Tuning [22.529990213795216]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では,最も一般的かつ容易に配置可能なバックドアディフェンスであるファインチューニングから始める。
チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を紹介する。
論文 参考訳(メタデータ) (2023-10-03T08:25:32Z) - Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプである
バックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。
本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-08-18T22:52:29Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Technical Report: Assisting Backdoor Federated Learning with Whole
Population Knowledge Alignment [4.87359365320076]
単発バックドア攻撃は、FLモデル収束時にメインタスクとバックドアサブタスクの両方で高い精度を達成する。
後続のバックドアアタックの予備段階を含む2段階のバックドアアタックを提案する。
予備段階から見れば、後から注入されたバックドアは、通常のモデル更新によってバックドア効果が希薄になりにくくなるため、効果が向上する。
論文 参考訳(メタデータ) (2022-07-25T16:38:31Z) - Adversarial Fine-tuning for Backdoor Defense: Connect Adversarial
Examples to Triggered Samples [15.57457705138278]
本稿では,バックドアトリガを除去する新たなAFT手法を提案する。
AFTは、クリーンサンプルの性能劣化を明白にすることなく、バックドアトリガを効果的に消去することができる。
論文 参考訳(メタデータ) (2022-02-13T13:41:15Z) - Red Alarm for Pre-trained Models: Universal Vulnerability to
Neuron-Level Backdoor Attacks [98.15243373574518]
事前訓練されたモデル(PTM)は、下流の様々なタスクで広く使われている。
本研究では,バックドアアタックによって微調整されたPTMを容易に制御できるPTMの普遍的脆弱性を実証する。
論文 参考訳(メタデータ) (2021-01-18T10:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。