論文の概要: BadCS: A Backdoor Attack Framework for Code search
- arxiv url: http://arxiv.org/abs/2305.05503v1
- Date: Tue, 9 May 2023 14:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 09:13:49.858866
- Title: BadCS: A Backdoor Attack Framework for Code search
- Title(参考訳): BadCS: コード検索のためのバックドアアタックフレームワーク
- Authors: Shiyi Qi and Yuanhang Yang and Shuzhzeng Gao and Cuiyun Gao and
Zenglin Xu
- Abstract要約: 我々は,BadCSというコード検索モデルのための新しいバックドアアタックフレームワークを提案する。
BadCSは主に有毒試料生成と再加重知識蒸留を含む2つの成分を含む。
DLベースの4つの一般的なモデルと2つのベンチマークデータセットの実験は、既存のコード検索システムがBadCSによって容易に攻撃されることを示した。
- 参考スコア(独自算出の注目度): 28.33043896763264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of deep learning (DL), DL-based code search models have
achieved state-of-the-art performance and have been widely used by developers
during software development. However, the security issue, e.g., recommending
vulnerable code, has not received sufficient attention, which will bring
potential harm to software development. Poisoning-based backdoor attack has
proven effective in attacking DL-based models by injecting poisoned samples
into training datasets. However, previous work shows that the attack technique
does not perform successfully on all DL-based code search models and tends to
fail for Transformer-based models, especially pretrained models. Besides, the
infected models generally perform worse than benign models, which makes the
attack not stealthy enough and thereby hinders the adoption by developers. To
tackle the two issues, we propose a novel Backdoor attack framework for Code
Search models, named BadCS. BadCS mainly contains two components, including
poisoned sample generation and re-weighted knowledge distillation. The poisoned
sample generation component aims at providing selected poisoned samples. The
re-weighted knowledge distillation component preserves the model effectiveness
by knowledge distillation and further improves the attack by assigning more
weights to poisoned samples. Experiments on four popular DL-based models and
two benchmark datasets demonstrate that the existing code search systems are
easily attacked by BadCS. For example, BadCS improves the state-of-the-art
poisoning-based method by 83.03%-99.98% and 75.98%-99.90% on Python and Java
datasets, respectively. Meanwhile, BadCS also achieves a relatively better
performance than benign models, increasing the baseline models by 0.49% and
0.46% on average, respectively.
- Abstract(参考訳): ディープラーニング(DL)の開発により、DLベースのコード検索モデルは最先端のパフォーマンスを達成し、ソフトウェア開発において広く使用されている。
しかし、脆弱性のあるコードを推奨するセキュリティ問題は十分な注意を払わず、ソフトウェア開発に潜在的に害をもたらす可能性がある。
毒物ベースのバックドア攻撃は、トレーニングデータセットに毒物サンプルを注入することでdlベースのモデルを攻撃するのに有効であることが証明されている。
しかし、以前の研究は、攻撃手法が全てのDLベースのコード検索モデルでうまく動作せず、トランスフォーマーベースのモデル、特に事前訓練されたモデルで失敗する傾向があることを示している。
さらに、感染したモデルは、一般的に良質なモデルよりもパフォーマンスが悪く、攻撃が十分にステルスにならず、開発者による採用を妨げる。
この2つの問題に対処するために,BadCSというコード検索モデルのための新しいバックドア攻撃フレームワークを提案する。
BadCSは主に有毒試料生成と再加重知識蒸留を含む2つの成分を含む。
有毒試料生成成分は、選択された有毒試料を提供することを目的とする。
再加重知識蒸留成分は、知識蒸留によるモデルの有効性を保ち、さらに有毒試料により多くの重量を割り当てることで攻撃を改善する。
DLベースの4つの一般的なモデルと2つのベンチマークデータセットの実験は、既存のコード検索システムがBadCSによって容易に攻撃されることを示した。
例えば、BadCSは、PythonとJavaのデータセットでそれぞれ83.03%-99.98%と75.98%-99.90%の改善を行った。
一方、BadCSは良質なモデルよりも比較的優れた性能を達成し、それぞれ平均で0.49%、0.46%のベースラインモデルを増やしている。
関連論文リスト
- The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data [4.9676716806872125]
バックドア攻撃は、ディープニューラルネットワーク(DNN)のトレーニングプロセスに深刻なセキュリティ上の脅威をもたらしている
The Victim and The Beneficiary (V&B) は有毒なモデルを利用して、余分な良性サンプルを使わずにクリーンなモデルを訓練する。
本フレームワークは,良質な試料の性能を維持しつつ,バックドア注入の防止と各種攻撃に対する堅牢化に有効である。
論文 参考訳(メタデータ) (2024-04-17T11:15:58Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Vulnerabilities in AI Code Generators: Exploring Targeted Data Poisoning
Attacks [9.386731514208149]
本研究では、AIコードジェネレータのセキュリティを、ターゲットとするデータ中毒戦略を考案することによって調査する。
セキュリティ脆弱性を含むコードの量を増やしてトレーニングデータを汚染します。
私たちの研究は、AIコードジェネレータが少量の毒にも弱いことを示しています。
論文 参考訳(メタデータ) (2023-08-04T15:23:30Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - TrojanPuzzle: Covertly Poisoning Code-Suggestion Models [27.418320728203387]
ドクストリングなどの文脈外領域に悪意のある毒データを植え付けることで静的解析を回避できる2つの攻撃を示す。
我々の最も新しい攻撃であるTROJANPUZLEは、ペイロードの特定の部分(目立たしい)を毒データに明示的に含めないことによって、不審な毒データを生成するための一歩を踏み出した。
論文 参考訳(メタデータ) (2023-01-06T00:37:25Z) - Poison Attack and Defense on Deep Source Code Processing Models [38.32413592143839]
我々は、CodePoisonerという名前のソースコードに対して、強力な想像上の敵として毒攻撃フレームワークを提示する。
CodePoisonerは、人間の知覚できない毒のサンプルをコンパイルして、トレーニングデータに毒を加えて攻撃する。
トレーニングデータ中の毒サンプルを検出するために,CodeDetectorという効果的な防御手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T03:06:40Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - MetaPoison: Practical General-purpose Clean-label Data Poisoning [58.13959698513719]
データ中毒は、ニューラルネットワークの文脈における新たな脅威である。
メタポゾン(MetaPoison)は、メタラーニングによって二段階問題を近似し、ニューラルネットワークを騙す毒を発生させる一階法である。
ブラックボックスのGoogle Cloud AutoML APIでトレーニングされたモデルのデータ中毒が、初めて成功したことを実証します。
論文 参考訳(メタデータ) (2020-04-01T04:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。