論文の概要: Eliminating Backdoors in Neural Code Models via Trigger Inversion
- arxiv url: http://arxiv.org/abs/2408.04683v1
- Date: Thu, 8 Aug 2024 08:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:30:10.230001
- Title: Eliminating Backdoors in Neural Code Models via Trigger Inversion
- Title(参考訳): トリガーインバージョンによるニューラルコードモデルのバックドアの除去
- Authors: Weisong Sun, Yuchen Chen, Chunrong Fang, Yebo Feng, Yuan Xiao, An Guo, Quanjun Zhang, Yang Liu, Baowen Xu, Zhenyu Chen,
- Abstract要約: ニューラルネットワークモデルに対するバックドア攻撃は、重大なセキュリティ脅威となる。
本稿では,EliBadCodeと呼ばれるトリガーインバージョンに基づくバックドア防御手法を提案する。
EliBadCodeはバックドアを効果的に排除でき、モデルの通常の機能に最小限の悪影響を及ぼすことを示した。
- 参考スコア(独自算出の注目度): 24.053091055319562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural code models (NCMs) have been widely used for addressing various code understanding tasks, such as defect detection and clone detection. However, numerous recent studies reveal that such models are vulnerable to backdoor attacks. Backdoored NCMs function normally on normal code snippets, but exhibit adversary-expected behavior on poisoned code snippets injected with the adversary-crafted trigger. It poses a significant security threat. For example, a backdoored defect detection model may misclassify user-submitted defective code as non-defective. If this insecure code is then integrated into critical systems, like autonomous driving systems, it could lead to life safety. However, there is an urgent need for effective defenses against backdoor attacks targeting NCMs. To address this issue, in this paper, we innovatively propose a backdoor defense technique based on trigger inversion, called EliBadCode. EliBadCode first filters the model vocabulary for trigger tokens to reduce the search space for trigger inversion, thereby enhancing the efficiency of the trigger inversion. Then, EliBadCode introduces a sample-specific trigger position identification method, which can reduce the interference of adversarial perturbations for subsequent trigger inversion, thereby producing effective inverted triggers efficiently. Subsequently, EliBadCode employs a Greedy Coordinate Gradient algorithm to optimize the inverted trigger and designs a trigger anchoring method to purify the inverted trigger. Finally, EliBadCode eliminates backdoors through model unlearning. We evaluate the effectiveness of EliBadCode in eliminating backdoor attacks against multiple NCMs used for three safety-critical code understanding tasks. The results demonstrate that EliBadCode can effectively eliminate backdoors while having minimal adverse effects on the normal functionality of the model.
- Abstract(参考訳): ニューラルコードモデル(NCM)は、欠陥検出やクローン検出など、さまざまなコード理解タスクに広く使用されている。
しかし、近年の多くの研究では、そのようなモデルがバックドア攻撃に弱いことが示されている。
バックドアのNCMは通常、通常のコードスニペットで機能するが、敵が生成したトリガーで注入された有毒なコードスニペットに敵が予測する振る舞いを示す。
これは重大なセキュリティ上の脅威となる。
例えば、バックドア欠陥検出モデルでは、ユーザが提出した欠陥コードを非欠陥と誤分類することがある。
もしこの安全でないコードが自動運転システムのような重要なシステムに統合されれば、生命の安全につながる可能性がある。
しかし、NCMを標的としたバックドア攻撃に対する効果的な防御は緊急に必要である。
この問題に対処するため、本稿では、EliBadCodeと呼ばれるトリガーインバージョンに基づくバックドア防御手法を革新的に提案する。
EliBadCodeは最初にトリガートークンのモデル語彙をフィルタリングし、トリガーインバージョンのための検索スペースを削減し、トリガーインバージョンの有効性を高める。
そして、EliBadCodeはサンプル特異的なトリガ位置同定法を導入し、その後のトリガ反転に対する逆方向の摂動の干渉を低減し、効果的な逆トリガを効率よく生成する。
その後、EliBadCodeは、反転トリガを最適化するためにGreedy Coordinate Gradientアルゴリズムを使用し、反転トリガを浄化するためにトリガアンカリングメソッドを設計する。
最後に、EliBadCodeはモデルアンラーニングを通じてバックドアを削除する。
安全クリティカルな3つのコード理解タスクに使用される複数のNCMに対するバックドア攻撃の排除におけるEliBadCodeの有効性を評価する。
その結果、EliBadCodeはバックドアを効果的に排除し、モデルの通常の機能に最小限の悪影響を及ぼすことを示した。
関連論文リスト
- CodePurify: Defend Backdoor Attacks on Neural Code Models via Entropy-based Purification [19.570958294967536]
バックドアアタックは、多くのソフトウェアエンジニアリングタスクにおいて、100%近いアタック成功率を達成することができます。
エントロピーに基づく浄化を通じて,コードモデルに対するバックドア攻撃に対する新たな防御法であるCodePurifyを提案する。
我々は、CodePurifyを3つの代表的なタスクと2つの人気のあるコードモデルにわたる4つの高度なバックドア攻撃に対して広範囲に評価した。
論文 参考訳(メタデータ) (2024-10-26T10:17:50Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Evolutionary Trigger Detection and Lightweight Model Repair Based Backdoor Defense [10.310546695762467]
ディープニューラルネットワーク(DNN)は、自律運転や顔認識など、多くの分野で広く利用されている。
DNNモデルのバックドアは、トリガーによる有毒な入力によってアクティベートされ、誤った予測につながる。
進化的トリガ検出と軽量モデル修復に基づく効率的なバックドア防御を提案する。
論文 参考訳(メタデータ) (2024-07-07T14:50:59Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Reconstructive Neuron Pruning for Backdoor Defense [96.21882565556072]
本稿では, バックドアニューロンの露出とプルーンの抑制を目的とした, emphReconstructive Neuron Pruning (RNP) という新しい防御法を提案する。
RNPでは、アンラーニングはニューロンレベルで行われ、リカバリはフィルタレベルで行われ、非対称再構成学習手順を形成する。
このような非対称なプロセスは、少数のクリーンサンプルだけが、広範囲の攻撃によって移植されたバックドアニューロンを効果的に露出し、刺激することができることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:29:30Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - UNICORN: A Unified Backdoor Trigger Inversion Framework [13.841110859970827]
トリガーインバージョンは、バックドアモデルを特定し、組込み敵行動を理解する効果的な方法である。
この研究は、異なる空間に注入されたトリガーと逆問題を定義し解析する。
そして,トリガの形式化とバックドアモデルの内部挙動の同定に基づいて,バックドアトリガを逆転させる統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T23:14:08Z) - Stealthy Backdoor Attack for Code Models [19.272856932095966]
既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では、ステルスなバックドア攻撃によるコードモデルの脆弱性を調査することを目的とする。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
論文 参考訳(メタデータ) (2023-01-06T13:15:42Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。