論文の概要: CodePurify: Defend Backdoor Attacks on Neural Code Models via Entropy-based Purification
- arxiv url: http://arxiv.org/abs/2410.20136v1
- Date: Sat, 26 Oct 2024 10:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:23:06.670686
- Title: CodePurify: Defend Backdoor Attacks on Neural Code Models via Entropy-based Purification
- Title(参考訳): CodePurify: エントロピーベースのパーフィケーションを通じて、ニューラルネットワークモデルに対するバックドア攻撃を防御する
- Authors: Fangwen Mu, Junjie Wang, Zhuohao Yu, Lin Shi, Song Wang, Mingyang Li, Qing Wang,
- Abstract要約: バックドアアタックは、多くのソフトウェアエンジニアリングタスクにおいて、100%近いアタック成功率を達成することができます。
エントロピーに基づく浄化を通じて,コードモデルに対するバックドア攻撃に対する新たな防御法であるCodePurifyを提案する。
我々は、CodePurifyを3つの代表的なタスクと2つの人気のあるコードモデルにわたる4つの高度なバックドア攻撃に対して広範囲に評価した。
- 参考スコア(独自算出の注目度): 19.570958294967536
- License:
- Abstract: Neural code models have found widespread success in tasks pertaining to code intelligence, yet they are vulnerable to backdoor attacks, where an adversary can manipulate the victim model's behavior by inserting triggers into the source code. Recent studies indicate that advanced backdoor attacks can achieve nearly 100% attack success rates on many software engineering tasks. However, effective defense techniques against such attacks remain insufficiently explored. In this study, we propose CodePurify, a novel defense against backdoor attacks on code models through entropy-based purification. Entropy-based purification involves the process of precisely detecting and eliminating the possible triggers in the source code while preserving its semantic information. Within this process, CodePurify first develops a confidence-driven entropy-based measurement to determine whether a code snippet is poisoned and, if so, locates the triggers. Subsequently, it purifies the code by substituting the triggers with benign tokens using a masked language model. We extensively evaluate CodePurify against four advanced backdoor attacks across three representative tasks and two popular code models. The results show that CodePurify significantly outperforms four commonly used defense baselines, improving average defense performance by at least 40%, 40%, and 12% across the three tasks, respectively. These findings highlight the potential of CodePurify to serve as a robust defense against backdoor attacks on neural code models.
- Abstract(参考訳): ニューラルネットワークモデルは、コードインテリジェンスに関連するタスクで広く成功したが、バックドア攻撃には弱い。
最近の研究では、高度なバックドア攻撃は、多くのソフトウェアエンジニアリングタスクにおいて、100%近い攻撃成功率を達成することが示されている。
しかし、このような攻撃に対する効果的な防御技術は依然として不十分である。
本研究では,エントロピーをベースとしたコードモデルに対するバックドア攻撃に対する新たな防御法であるCodePurifyを提案する。
エントロピーに基づく浄化は、ソースコード内の可能なトリガーを正確に検出し、除去し、セマンティック情報を保存するプロセスを含む。
このプロセスの中で、CodePurifyはまず信頼性駆動のエントロピーに基づく測定を開発し、コードスニペットが毒されているかどうかを判断し、もしそうであればトリガーを見つける。
その後、マスク付き言語モデルを使用して、トリガに良性トークンを代入することで、コードを浄化する。
我々は、CodePurifyを3つの代表的なタスクと2つの人気のあるコードモデルにわたる4つの高度なバックドア攻撃に対して広範囲に評価した。
以上の結果から,CodePurifyは3つのタスクでそれぞれ40%,40%,12%の平均防御性能を向上した。
これらの発見は、CodePurifyが、ニューラルネットワークモデルに対するバックドア攻撃に対する堅牢な防御として機能する可能性を強調している。
関連論文リスト
- Eliminating Backdoors in Neural Code Models via Trigger Inversion [24.053091055319562]
ニューラルネットワークモデルに対するバックドア攻撃は、重大なセキュリティ脅威となる。
本稿では,EliBadCodeと呼ばれるトリガーインバージョンに基づくバックドア防御手法を提案する。
EliBadCodeはバックドアを効果的に排除でき、モデルの通常の機能に最小限の悪影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-08-08T08:23:03Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - Multi-target Backdoor Attacks for Code Pre-trained Models [24.37781284059454]
コード事前学習モデルに対するタスク非依存のバックドア攻撃を提案する。
このアプローチは、コードに関連する下流タスクを効果的に、かつ、ステルス的に攻撃することができる。
論文 参考訳(メタデータ) (2023-06-14T08:38:51Z) - Backdooring Neural Code Search [20.88291603306741]
敵はニューラルコードサーチモデルでバックドアを注入することができる。
本稿では、このような攻撃が実現可能であり、非常にステルス性が高いことを実証する。
我々の攻撃BADCODEは、攻撃をより効果的かつステルス的に、特別なトリガー生成および注入手順を特徴としている。
論文 参考訳(メタデータ) (2023-05-27T16:00:50Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - Stealthy Backdoor Attack for Code Models [19.272856932095966]
既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では、ステルスなバックドア攻撃によるコードモデルの脆弱性を調査することを目的とする。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
論文 参考訳(メタデータ) (2023-01-06T13:15:42Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。