論文の概要: Eliminating Backdoors in Neural Code Models for Secure Code Understanding
- arxiv url: http://arxiv.org/abs/2408.04683v2
- Date: Thu, 20 Feb 2025 06:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:13.710834
- Title: Eliminating Backdoors in Neural Code Models for Secure Code Understanding
- Title(参考訳): セキュアコード理解のためのニューラルネットワークモデルにおけるバックドアの除去
- Authors: Weisong Sun, Yuchen Chen, Chunrong Fang, Yebo Feng, Yuan Xiao, An Guo, Quanjun Zhang, Yang Liu, Baowen Xu, Zhenyu Chen,
- Abstract要約: ニューラルコードモデル(NCM)は、欠陥検出など、さまざまなコード理解タスクに広く使用されている。
バックドアのNCMは通常、通常のコードスニペット/クリーンコードスニペットで機能するが、毒されたコードスニペットで敵対的に予測される振る舞いを示す。
逆エンジニアリングと未学習のバックドアトリガによってNCMのバックドアを除去するEliBadCodeを提案する。
- 参考スコア(独自算出の注目度): 24.053091055319562
- License:
- Abstract: Neural code models (NCMs) have been widely used to address various code understanding tasks, such as defect detection. However, numerous recent studies reveal that such models are vulnerable to backdoor attacks. Backdoored NCMs function normally on normal/clean code snippets, but exhibit adversary-expected behavior on poisoned code snippets injected with the adversary-crafted trigger. It poses a significant security threat. Therefore, there is an urgent need for effective techniques to detect and eliminate backdoors stealthily implanted in NCMs. To address this issue, in this paper, we innovatively propose a backdoor elimination technique for secure code understanding, called EliBadCode. EliBadCode eliminates backdoors in NCMs by inverting/reverse-engineering and unlearning backdoor triggers. Specifically, EliBadCode first filters the model vocabulary for trigger tokens based on the naming conventions of specific programming languages to reduce the trigger search space and cost. Then, EliBadCode introduces a sample-specific trigger position identification method, which can reduce the interference of non-backdoor (adversarial) perturbations for subsequent trigger inversion, thereby producing effective inverted backdoor triggers efficiently. Backdoor triggers can be viewed as backdoor (adversarial) perturbations. Subsequently, EliBadCode employs a Greedy Coordinate Gradient algorithm to optimize the inverted trigger and designs a trigger anchoring method to purify the inverted trigger. Finally, EliBadCode eliminates backdoors through model unlearning. We evaluate the effectiveness of EliBadCode in eliminating backdoors implanted in multiple NCMs used for three safety-critical code understanding tasks. The results demonstrate that EliBadCode can effectively eliminate backdoors while having minimal adverse effects on the normal functionality of the model.
- Abstract(参考訳): ニューラルコードモデル(NCM)は、欠陥検出など、さまざまなコード理解タスクに広く使用されている。
しかし、近年の多くの研究では、そのようなモデルがバックドア攻撃に弱いことが示されている。
バックドアのNCMは通常、通常の/クリーンなコードスニペットで機能するが、敵が生成したトリガーで注入された有毒なコードスニペットに対して、敵が予測する振る舞いを示す。
これは重大なセキュリティ上の脅威となる。
そのため、NCMに密着したバックドアを検出・除去するための効果的な技術が緊急に必要である。
この問題に対処するため,本稿では,EliBadCodeと呼ばれるセキュアなコード理解のためのバックドア除去手法を革新的に提案する。
EliBadCodeは、逆エンジニアリングと未学習のバックドアトリガによってNCMのバックドアを除去する。
具体的には、EliBadCodeは、特定のプログラミング言語の命名規則に基づくトリガートークンのモデル語彙をフィルタリングして、トリガー検索スペースとコストを削減する。
そして、EliBadCodeは、サンプル特異的なトリガ位置同定法を導入し、その後のトリガインバージョンに対する非バックドア(逆方向)摂動の干渉を低減し、効果的な逆バックドアトリガを効率よく生成する。
バックドアトリガーはバックドア(逆方向)の摂動と見なすことができる。
その後、EliBadCodeは、反転トリガを最適化するためにGreedy Coordinate Gradientアルゴリズムを使用し、反転トリガを浄化するためにトリガアンカリングメソッドを設計する。
最後に、EliBadCodeはモデルアンラーニングを通じてバックドアを削除する。
安全クリティカルな3つのコード理解タスクに使用される複数のNCMに埋め込まれたバックドアの除去におけるEliBadCodeの有効性を評価する。
その結果、EliBadCodeはバックドアを効果的に排除し、モデルの通常の機能に最小限の悪影響を及ぼすことを示した。
関連論文リスト
- CodePurify: Defend Backdoor Attacks on Neural Code Models via Entropy-based Purification [19.570958294967536]
バックドアアタックは、多くのソフトウェアエンジニアリングタスクにおいて、100%近いアタック成功率を達成することができます。
エントロピーに基づく浄化を通じて,コードモデルに対するバックドア攻撃に対する新たな防御法であるCodePurifyを提案する。
我々は、CodePurifyを3つの代表的なタスクと2つの人気のあるコードモデルにわたる4つの高度なバックドア攻撃に対して広範囲に評価した。
論文 参考訳(メタデータ) (2024-10-26T10:17:50Z) - "No Matter What You Do": Purifying GNN Models via Backdoor Unlearning [33.07926413485209]
GNNのバックドア攻撃は、攻撃者がトリガーを埋め込むことでグラフデータの一部を修正したという事実にある。
GNNにおける最初のバックドア緩和手法であるGCleanerを提案する。
GCleanerは、クリーンデータのわずか1%でバックドア攻撃の成功率を10%に下げることができ、ほぼ無視できるモデル性能の低下がある。
論文 参考訳(メタデータ) (2024-10-02T06:30:49Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - UNICORN: A Unified Backdoor Trigger Inversion Framework [13.841110859970827]
トリガーインバージョンは、バックドアモデルを特定し、組込み敵行動を理解する効果的な方法である。
この研究は、異なる空間に注入されたトリガーと逆問題を定義し解析する。
そして,トリガの形式化とバックドアモデルの内部挙動の同定に基づいて,バックドアトリガを逆転させる統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T23:14:08Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - Stealthy Backdoor Attack for Code Models [19.272856932095966]
既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では、ステルスなバックドア攻撃によるコードモデルの脆弱性を調査することを目的とする。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
論文 参考訳(メタデータ) (2023-01-06T13:15:42Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word
Substitution [57.51117978504175]
最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。
バックドアを注入すると、モデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成する。
単語置換の学習可能な組み合わせによって活性化される見えないバックドアを提示する。
論文 参考訳(メタデータ) (2021-06-11T13:03:17Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Defending against Backdoor Attack on Deep Neural Networks [98.45955746226106]
トレーニングデータの一部にバックドアトリガーを注入する、いわゆるテキストバックドア攻撃について検討する。
実験の結果,本手法は攻撃成功率を効果的に低減し,クリーン画像の分類精度も高いことがわかった。
論文 参考訳(メタデータ) (2020-02-26T02:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。