論文の概要: Eliminating Backdoors in Neural Code Models via Trigger Inversion
- arxiv url: http://arxiv.org/abs/2408.04683v1
- Date: Thu, 8 Aug 2024 08:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:30:10.230001
- Title: Eliminating Backdoors in Neural Code Models via Trigger Inversion
- Title(参考訳): トリガーインバージョンによるニューラルコードモデルのバックドアの除去
- Authors: Weisong Sun, Yuchen Chen, Chunrong Fang, Yebo Feng, Yuan Xiao, An Guo, Quanjun Zhang, Yang Liu, Baowen Xu, Zhenyu Chen,
- Abstract要約: ニューラルネットワークモデルに対するバックドア攻撃は、重大なセキュリティ脅威となる。
本稿では,EliBadCodeと呼ばれるトリガーインバージョンに基づくバックドア防御手法を提案する。
EliBadCodeはバックドアを効果的に排除でき、モデルの通常の機能に最小限の悪影響を及ぼすことを示した。
- 参考スコア(独自算出の注目度): 24.053091055319562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural code models (NCMs) have been widely used for addressing various code understanding tasks, such as defect detection and clone detection. However, numerous recent studies reveal that such models are vulnerable to backdoor attacks. Backdoored NCMs function normally on normal code snippets, but exhibit adversary-expected behavior on poisoned code snippets injected with the adversary-crafted trigger. It poses a significant security threat. For example, a backdoored defect detection model may misclassify user-submitted defective code as non-defective. If this insecure code is then integrated into critical systems, like autonomous driving systems, it could lead to life safety. However, there is an urgent need for effective defenses against backdoor attacks targeting NCMs. To address this issue, in this paper, we innovatively propose a backdoor defense technique based on trigger inversion, called EliBadCode. EliBadCode first filters the model vocabulary for trigger tokens to reduce the search space for trigger inversion, thereby enhancing the efficiency of the trigger inversion. Then, EliBadCode introduces a sample-specific trigger position identification method, which can reduce the interference of adversarial perturbations for subsequent trigger inversion, thereby producing effective inverted triggers efficiently. Subsequently, EliBadCode employs a Greedy Coordinate Gradient algorithm to optimize the inverted trigger and designs a trigger anchoring method to purify the inverted trigger. Finally, EliBadCode eliminates backdoors through model unlearning. We evaluate the effectiveness of EliBadCode in eliminating backdoor attacks against multiple NCMs used for three safety-critical code understanding tasks. The results demonstrate that EliBadCode can effectively eliminate backdoors while having minimal adverse effects on the normal functionality of the model.
- Abstract(参考訳): ニューラルコードモデル(NCM)は、欠陥検出やクローン検出など、さまざまなコード理解タスクに広く使用されている。
しかし、近年の多くの研究では、そのようなモデルがバックドア攻撃に弱いことが示されている。
バックドアのNCMは通常、通常のコードスニペットで機能するが、敵が生成したトリガーで注入された有毒なコードスニペットに敵が予測する振る舞いを示す。
これは重大なセキュリティ上の脅威となる。
例えば、バックドア欠陥検出モデルでは、ユーザが提出した欠陥コードを非欠陥と誤分類することがある。
もしこの安全でないコードが自動運転システムのような重要なシステムに統合されれば、生命の安全につながる可能性がある。
しかし、NCMを標的としたバックドア攻撃に対する効果的な防御は緊急に必要である。
この問題に対処するため、本稿では、EliBadCodeと呼ばれるトリガーインバージョンに基づくバックドア防御手法を革新的に提案する。
EliBadCodeは最初にトリガートークンのモデル語彙をフィルタリングし、トリガーインバージョンのための検索スペースを削減し、トリガーインバージョンの有効性を高める。
そして、EliBadCodeはサンプル特異的なトリガ位置同定法を導入し、その後のトリガ反転に対する逆方向の摂動の干渉を低減し、効果的な逆トリガを効率よく生成する。
その後、EliBadCodeは、反転トリガを最適化するためにGreedy Coordinate Gradientアルゴリズムを使用し、反転トリガを浄化するためにトリガアンカリングメソッドを設計する。
最後に、EliBadCodeはモデルアンラーニングを通じてバックドアを削除する。
安全クリティカルな3つのコード理解タスクに使用される複数のNCMに対するバックドア攻撃の排除におけるEliBadCodeの有効性を評価する。
その結果、EliBadCodeはバックドアを効果的に排除し、モデルの通常の機能に最小限の悪影響を及ぼすことを示した。
関連論文リスト
- CodePurify: Defend Backdoor Attacks on Neural Code Models via Entropy-based Purification [19.570958294967536]
バックドアアタックは、多くのソフトウェアエンジニアリングタスクにおいて、100%近いアタック成功率を達成することができます。
エントロピーに基づく浄化を通じて,コードモデルに対するバックドア攻撃に対する新たな防御法であるCodePurifyを提案する。
我々は、CodePurifyを3つの代表的なタスクと2つの人気のあるコードモデルにわたる4つの高度なバックドア攻撃に対して広範囲に評価した。
論文 参考訳(メタデータ) (2024-10-26T10:17:50Z) - "No Matter What You Do": Purifying GNN Models via Backdoor Unlearning [33.07926413485209]
GNNのバックドア攻撃は、攻撃者がトリガーを埋め込むことでグラフデータの一部を修正したという事実にある。
GNNにおける最初のバックドア緩和手法であるGCleanerを提案する。
GCleanerは、クリーンデータのわずか1%でバックドア攻撃の成功率を10%に下げることができ、ほぼ無視できるモデル性能の低下がある。
論文 参考訳(メタデータ) (2024-10-02T06:30:49Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - UNICORN: A Unified Backdoor Trigger Inversion Framework [13.841110859970827]
トリガーインバージョンは、バックドアモデルを特定し、組込み敵行動を理解する効果的な方法である。
この研究は、異なる空間に注入されたトリガーと逆問題を定義し解析する。
そして,トリガの形式化とバックドアモデルの内部挙動の同定に基づいて,バックドアトリガを逆転させる統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T23:14:08Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - Stealthy Backdoor Attack for Code Models [19.272856932095966]
既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では、ステルスなバックドア攻撃によるコードモデルの脆弱性を調査することを目的とする。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
論文 参考訳(メタデータ) (2023-01-06T13:15:42Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Defending against Backdoor Attack on Deep Neural Networks [98.45955746226106]
トレーニングデータの一部にバックドアトリガーを注入する、いわゆるテキストバックドア攻撃について検討する。
実験の結果,本手法は攻撃成功率を効果的に低減し,クリーン画像の分類精度も高いことがわかった。
論文 参考訳(メタデータ) (2020-02-26T02:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。