論文の概要: Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor
- arxiv url: http://arxiv.org/abs/2409.01952v2
- Date: Mon, 9 Sep 2024 15:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 13:26:07.082905
- Title: Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor
- Title(参考訳): 防衛対応アーキテクチャバックドアによる大規模言語モデルの脆弱性の解明
- Authors: Abdullah Arafat Miah, Yu Bi,
- Abstract要約: 基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入します。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、レイヤの重みを変更することができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 0.24335447922683692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) have long been recognized as vulnerable to backdoor attacks. By providing poisoned training data in the fine-tuning process, the attacker can implant a backdoor into the victim model. This enables input samples meeting specific textual trigger patterns to be classified as target labels of the attacker's choice. While such black-box attacks have been well explored in both computer vision and natural language processing (NLP), backdoor attacks relying on white-box attack philosophy have hardly been thoroughly investigated. In this paper, we take the first step to introduce a new type of backdoor attack that conceals itself within the underlying model architecture. Specifically, we propose to design separate backdoor modules consisting of two functions: trigger detection and noise injection. The add-on modules of model architecture layers can detect the presence of input trigger tokens and modify layer weights using Gaussian noise to disturb the feature distribution of the baseline model. We conduct extensive experiments to evaluate our attack methods using two model architecture settings on five different large language datasets. We demonstrate that the training-free architectural backdoor on a large language model poses a genuine threat. Unlike the-state-of-art work, it can survive the rigorous fine-tuning and retraining process, as well as evade output probability-based defense methods (i.e. BDDR). All the code and data is available https://github.com/SiSL-URI/Arch_Backdoor_LLM.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、バックドア攻撃に対する脆弱性として長年認識されてきた。
微調整の過程で有毒な訓練データを提供することで、攻撃者は被害者モデルにバックドアを埋め込むことができる。
これにより、特定のテキストトリガーパターンを満たす入力サンプルを、攻撃者の選択したターゲットラベルに分類することができる。
このようなブラックボックス攻撃はコンピュータビジョンと自然言語処理(NLP)の両方でよく研究されているが、ホワイトボックス攻撃の哲学に依存するバックドア攻撃はほとんど研究されていない。
本稿では,基盤となるモデルアーキテクチャ内に隠蔽する新しいタイプのバックドアアタックを導入するための第一歩を踏み出す。
具体的には、トリガー検出とノイズ注入という2つの機能からなるバックドアモジュールを設計することを提案する。
モデルアーキテクチャレイヤのアドオンモジュールは、入力トリガトークンの存在を検出し、ガウスノイズを使って層重みを変更することで、ベースラインモデルの特徴分布を乱すことができる。
我々は,5つの大言語データセットの2つのモデルアーキテクチャ設定を用いて,攻撃方法を評価するための広範囲な実験を行った。
大規模言語モデルのトレーニング不要なアーキテクチャバックドアが真の脅威となることを実証する。
最先端の作業とは違って、厳密な微調整と再訓練プロセスや、出力確率ベースの防御方法(BDDR)を回避できる。
すべてのコードとデータはhttps://github.com/SiSL-URI/Arch_Backdoor_LLMで利用可能である。
関連論文リスト
- Expose Before You Defend: Unifying and Enhancing Backdoor Defenses via Exposed Models [68.40324627475499]
本稿では,Expose Before You Defendという新しい2段階防衛フレームワークを紹介する。
EBYDは既存のバックドア防御手法を総合防衛システムに統合し、性能を向上する。
2つの視覚データセットと4つの言語データセットにまたがる10のイメージアタックと6つのテキストアタックに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-10-25T09:36:04Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - BackdoorBox: A Python Toolbox for Backdoor Learning [67.53987387581222]
このPythonツールボックスは、代表的で高度なバックドア攻撃と防御を実装している。
研究者や開発者は、ベンチマークやローカルデータセットで、さまざまなメソッドを簡単に実装し、比較することができる。
論文 参考訳(メタデータ) (2023-02-01T09:45:42Z) - Architectural Backdoors in Neural Networks [27.315196801989032]
モデルアーキテクチャの内部に隠れる新しい種類のバックドアアタックを導入します。
これらのバックドアの実装は簡単で、例えばバックドアモデルアーキテクチャ用のオープンソースコードを公開している。
私たちは、モデルアーキテクチャのバックドアが真の脅威であり、他のアプローチとは異なり、ゼロから完全な再トレーニングに耐えられることを実証しています。
論文 参考訳(メタデータ) (2022-06-15T22:44:03Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。