論文の概要: TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models
- arxiv url: http://arxiv.org/abs/2405.16783v1
- Date: Mon, 27 May 2024 03:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:16:00.321003
- Title: TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models
- Title(参考訳): TrojFM: 非常に大規模な基盤モデルに対するリソース効率の高いバックドア攻撃
- Authors: Yuzhou. Nie, Yanting. Wang, Jinyuan. Jia, Michael J. De Lucia, Nathaniel D. Bastian, Wenbo. Guo, Dawn. Song,
- Abstract要約: TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
- 参考スコア(独自算出の注目度): 69.37990698561299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One key challenge in backdoor attacks against large foundation models is the resource limits. Backdoor attacks usually require retraining the target model, which is impractical for very large foundation models. Existing backdoor attacks are mainly designed for supervised classifiers or small foundation models (e.g., BERT). None of these attacks has successfully compromised a very large foundation model, such as Llama-3-70B, especially with limited computational resources. In this paper, we propose TrojFM, a novel backdoor attack tailored for very large foundation models. Our primary technical contribution is the development of a novel backdoor injection method. This method forces a backdoored model to generate similar hidden representations for poisoned inputs regardless of their actual semantics. Our approach injects such backdoors by fine-tuning only a very small proportion of model parameters. This enables TrojFM to efficiently launch downstream task-agnostic backdoor attacks against very large foundation models under limited computational resources. Moreover, we optimize the fine-tuning process with our customized QLoRA technique, enabling launching our attack via only~\textit{one A100 GPU}. Furthermore, we design a new trigger injection method to ensure our attack stealthiness. Through extensive experiments, we first demonstrate that TrojFM can launch effective backdoor attacks against widely used large GPT-style models without jeopardizing their normal functionalities (and outperforming existing attacks on BERT-style models). Furthermore, we show that TrojFM is resilient to SOTA defenses and is insensitive to changes in key hyper-parameters. Finally, we conduct a resource analysis to quantify that our method can significantly save computational and memory costs compared to existing backdoor attacks.
- Abstract(参考訳): 大きな基盤モデルに対するバックドア攻撃における重要な課題は、リソース制限である。
バックドアアタックは通常、非常に大きな基盤モデルにとって実用的でないターゲットモデルを再訓練する必要がある。
既存のバックドア攻撃は、主に教師付き分類器または小さな基礎モデル(例えばBERT)のために設計されている。
これらの攻撃のどれも、Llama-3-70Bのような非常に大きな基盤モデル、特に限られた計算資源を損なうことに成功していない。
本稿では,非常に大規模な基盤モデルに適したバックドア攻撃であるTrojFMを提案する。
我々の主な技術的貢献は、新しいバックドア注入法の開発である。
この方法は、バックドアモデルに対して、実際のセマンティクスに関係なく、有毒な入力に対して同様の隠れ表現を生成するように強制する。
提案手法は,モデルパラメータのごく一部のみを微調整することによって,そのようなバックドアを注入する。
これにより、TrojFMは、限られた計算資源の下で非常に大きな基盤モデルに対して、下流のタスクに依存しないバックドア攻撃を効率的に起動することができる。
さらに、カスタマイズしたQLoRA技術で微調整プロセスを最適化し、~\textit{one A100 GPU}で攻撃を起動できるようにします。
さらに,攻撃のステルス性を確保するため,新たなトリガー注入法を設計する。
広範にわたる実験を通じて、TrojFMは、通常の機能を損なうことなく(既存のBERTスタイルモデルよりも優れている)、広く使われているGPTスタイルのモデルに対して効果的なバックドア攻撃を起動できることを最初に実証した。
さらに,TrojFMはSOTA防御に耐性があり,キーのハイパーパラメータの変化に敏感であることを示す。
最後に,既存のバックドア攻撃と比較して,計算コストとメモリコストを大幅に削減できることを示す。
関連論文リスト
- Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Model Supply Chain Poisoning: Backdooring Pre-trained Models via Embedding Indistinguishability [61.549465258257115]
そこで我々は,PTMに埋め込まれたバックドアをモデルサプライチェーンに効率的に移動させる,新しい,より厳しいバックドア攻撃であるTransTrojを提案する。
実験の結果,本手法はSOTAタスク非依存のバックドア攻撃より有意に優れていた。
論文 参考訳(メタデータ) (2024-01-29T04:35:48Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - PatchBackdoor: Backdoor Attack against Deep Neural Networks without
Model Modification [0.0]
バックドア攻撃は、安全クリティカルなシナリオにおけるディープラーニングシステムに対する大きな脅威である。
本稿では,モデル変更なしにバックドア攻撃が可能であることを示す。
PatchBackdoorを現実のシナリオで実装し、攻撃がまだ脅威であることを示す。
論文 参考訳(メタデータ) (2023-08-22T23:02:06Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - DECK: Model Hardening for Defending Pervasive Backdoors [21.163501644177668]
広汎なバックドアは動的および広汎な入力摂動によって引き起こされる。
我々は,特殊な変換層で拡張されたエンコーダ・デコーダアーキテクチャに基づく汎用攻撃を開発する。
本手法は, 精度1%以下で平均59.65%の精度でクラス距離を拡大し, 損失を生じない。
論文 参考訳(メタデータ) (2022-06-18T19:46:06Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Handcrafted Backdoors in Deep Neural Networks [33.21980707457639]
トレーニング済みモデルのパラメータを直接操作してバックドアを注入する手工芸攻撃を導入する。
バックドアは4つのデータセットと4つのネットワークアーキテクチャで有効であり、成功率は96%を超えています。
以上の結果から,サプライチェーンバックドア攻撃の完全な空間を理解するためには,さらなる研究が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-06-08T20:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。