論文の概要: Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability
- arxiv url: http://arxiv.org/abs/2401.15883v2
- Date: Thu, 17 Oct 2024 03:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:17:21.686301
- Title: Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability
- Title(参考訳): モデル・サプライチェーン・ポジショニング:不明瞭な埋め込みによる事前学習モデルのバックドア化
- Authors: Hao Wang, Shangwei Guo, Jialing He, Hangcheng Liu, Tianwei Zhang, Tao Xiang,
- Abstract要約: そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
- 参考スコア(独自算出の注目度): 61.549465258257115
- License:
- Abstract: Pre-trained models (PTMs) are widely adopted across various downstream tasks in the machine learning supply chain. Adopting untrustworthy PTMs introduces significant security risks, where adversaries can poison the model supply chain by embedding hidden malicious behaviors (backdoors) into PTMs. However, existing backdoor attacks to PTMs can only achieve partially task-agnostic and the embedded backdoors are easily erased during the fine-tuning process. This makes it challenging for the backdoors to persist and propagate through the supply chain. In this paper, we propose a novel and severer backdoor attack, TransTroj, which enables the backdoors embedded in PTMs to efficiently transfer in the model supply chain. In particular, we first formalize this attack as an indistinguishability problem between poisoned and clean samples in the embedding space. We decompose embedding indistinguishability into pre- and post-indistinguishability, representing the similarity of the poisoned and reference embeddings before and after the attack. Then, we propose a two-stage optimization that separately optimizes triggers and victim PTMs to achieve embedding indistinguishability. We evaluate TransTroj on four PTMs and six downstream tasks. Experimental results show that our method significantly outperforms SOTA task-agnostic backdoor attacks -- achieving nearly 100\% attack success rate on most downstream tasks -- and demonstrates robustness under various system settings. Our findings underscore the urgent need to secure the model supply chain against such transferable backdoor attacks. The code is available at https://github.com/haowang-cqu/TransTroj .
- Abstract(参考訳): プレトレーニングモデル(PTM)は、機械学習サプライチェーン内のさまざまな下流タスクに広く採用されている。
信頼できない PTM を採用すると、敵は PTM に隠された悪意のある行動(バックドア)を埋め込むことでモデルサプライチェーンを害する、重大なセキュリティリスクが生じる。
しかし, PTM に対する既存のバックドア攻撃は, 部分的にはタスクに依存しず, 組込みバックドアは微調整時に容易に消去できる。
これにより、バックドアがサプライチェーンを通して持続し、伝播することが困難になる。
本稿では,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
特に, この攻撃を, 埋込空間における毒物と清浄物の区別不能な問題として定式化した。
我々は,攻撃前後の毒と参照の埋め込みの類似性を表わし,前・後区別不能を分解する。
そこで,本研究では,個別にトリガと被害者のPTMを最適化し,組込み不明瞭性を実現するための2段階最適化を提案する。
4つのPTMと6つの下流タスクでTransTrojを評価する。
実験結果から,本手法はSOTAタスク非依存のバックドア攻撃を著しく上回り,ほとんどの下流タスクにおいて100倍近い攻撃成功率を達成し,様々なシステム設定下で堅牢性を示すことがわかった。
このようなバックドア攻撃に対して,モデルサプライチェーンの確保が急務であることを示す。
コードはhttps://github.com/haowang-cqu/TransTroj で公開されている。
関連論文リスト
- TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning [57.50274256088251]
パラメータ効率のよい微調整(PEFT)は,重み付けによるバックドア攻撃の影響を受けやすいことを示す。
PEFTを利用したPSIM(Poisoned Sample Identification Module)を開発した。
テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。
論文 参考訳(メタデータ) (2024-02-19T14:22:54Z) - Towards Stable Backdoor Purification through Feature Shift Tuning [22.529990213795216]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では,最も一般的かつ容易に配置可能なバックドアディフェンスであるファインチューニングから始める。
チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を紹介する。
論文 参考訳(メタデータ) (2023-10-03T08:25:32Z) - Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプである
バックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。
本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-08-18T22:52:29Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Adversarial Fine-tuning for Backdoor Defense: Connect Adversarial
Examples to Triggered Samples [15.57457705138278]
本稿では,バックドアトリガを除去する新たなAFT手法を提案する。
AFTは、クリーンサンプルの性能劣化を明白にすることなく、バックドアトリガを効果的に消去することができる。
論文 参考訳(メタデータ) (2022-02-13T13:41:15Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - Red Alarm for Pre-trained Models: Universal Vulnerability to
Neuron-Level Backdoor Attacks [98.15243373574518]
事前訓練されたモデル(PTM)は、下流の様々なタスクで広く使われている。
本研究では,バックドアアタックによって微調整されたPTMを容易に制御できるPTMの普遍的脆弱性を実証する。
論文 参考訳(メタデータ) (2021-01-18T10:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。