論文の概要: Stealthy Backdoor Attack for Code Models
- arxiv url: http://arxiv.org/abs/2301.02496v2
- Date: Tue, 29 Aug 2023 03:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:49:13.928142
- Title: Stealthy Backdoor Attack for Code Models
- Title(参考訳): コードモデルのためのステルスなバックドア攻撃
- Authors: Zhou Yang, Bowen Xu, Jie M. Zhang, Hong Jin Kang, Jieke Shi, Junda He,
David Lo
- Abstract要約: 既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では、ステルスなバックドア攻撃によるコードモデルの脆弱性を調査することを目的とする。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
- 参考スコア(独自算出の注目度): 19.272856932095966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code models, such as CodeBERT and CodeT5, offer general-purpose
representations of code and play a vital role in supporting downstream
automated software engineering tasks. Most recently, code models were revealed
to be vulnerable to backdoor attacks. A code model that is backdoor-attacked
can behave normally on clean examples but will produce pre-defined malicious
outputs on examples injected with triggers that activate the backdoors.
Existing backdoor attacks on code models use unstealthy and easy-to-detect
triggers. This paper aims to investigate the vulnerability of code models with
stealthy backdoor attacks. To this end, we propose AFRAIDOOR (Adversarial
Feature as Adaptive Backdoor). AFRAIDOOR achieves stealthiness by leveraging
adversarial perturbations to inject adaptive triggers into different inputs. We
evaluate AFRAIDOOR on three widely adopted code models (CodeBERT, PLBART and
CodeT5) and two downstream tasks (code summarization and method name
prediction). We find that around 85% of adaptive triggers in AFRAIDOOR bypass
the detection in the defense process. By contrast, only less than 12% of the
triggers from previous work bypass the defense. When the defense method is not
applied, both AFRAIDOOR and baselines have almost perfect attack success rates.
However, once a defense is applied, the success rates of baselines decrease
dramatically to 10.47% and 12.06%, while the success rate of AFRAIDOOR are
77.05% and 92.98% on the two tasks. Our finding exposes security weaknesses in
code models under stealthy backdoor attacks and shows that the state-of-the-art
defense method cannot provide sufficient protection. We call for more research
efforts in understanding security threats to code models and developing more
effective countermeasures.
- Abstract(参考訳): CodeBERTやCodeT5のようなコードモデルは、コードの汎用的な表現を提供し、下流の自動化ソフトウェアエンジニアリングタスクをサポートする上で重要な役割を果たす。
最近では、コードモデルはバックドア攻撃に弱いことが判明した。
バックドア攻撃されたコードモデルは、通常クリーンな例で振る舞うことができるが、バックドアを起動するトリガーで注入された例に対して、事前に定義された悪意のある出力を生成する。
既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では,ステルスなバックドア攻撃によるコードモデルの脆弱性の解明を目的とする。
そこで我々はAFRAIDOOR(Adversarial Feature as Adaptive Backdoor)を提案する。
AFRAIDOORは、異なる入力に適応的なトリガを注入するために、逆方向の摂動を活用することでステルス性を達成する。
我々は、広く採用されている3つのコードモデル(CodeBERT、PLBART、CodeT5)と2つの下流タスク(コード要約とメソッド名予測)でAFRAIDOORを評価する。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
対照的に、以前の作業からのトリガーのわずか12%が防御をバイパスしている。
防御方法は適用されない場合、AFRAIDOORもベースラインもほぼ完璧な攻撃成功率を持つ。
しかし、一度防御を施すと、ベースラインの成功率は劇的に10.47%と12.06%に減少し、AFRAIDOORの成功率は77.05%と92.98%となる。
我々の発見は、ステルスなバックドア攻撃によるコードモデルのセキュリティ上の弱点を暴露し、最先端の防御手法が十分な保護を提供することができないことを示す。
我々は、コードモデルに対するセキュリティの脅威を理解し、より効果的な対策を開発するためのさらなる研究努力を求めている。
関連論文リスト
- Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - CodePurify: Defend Backdoor Attacks on Neural Code Models via Entropy-based Purification [19.570958294967536]
バックドアアタックは、多くのソフトウェアエンジニアリングタスクにおいて、100%近いアタック成功率を達成することができます。
エントロピーに基づく浄化を通じて,コードモデルに対するバックドア攻撃に対する新たな防御法であるCodePurifyを提案する。
我々は、CodePurifyを3つの代表的なタスクと2つの人気のあるコードモデルにわたる4つの高度なバックドア攻撃に対して広範囲に評価した。
論文 参考訳(メタデータ) (2024-10-26T10:17:50Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Diff-Cleanse: Identifying and Mitigating Backdoor Attacks in Diffusion Models [3.134071086568745]
拡散モデル(DM)は、今日では最も先進的な生成モデルの一つと見なされている。
近年の研究では、DMはバックドア攻撃に弱いことが示唆されている。
この脆弱性は、モデル所有者に評判を害するなど、重大なリスクをもたらす。
Diff-Cleanseは、DM用に特別に設計された2段階のバックドア防御フレームワークである。
論文 参考訳(メタデータ) (2024-07-31T03:54:41Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transformers [51.0477382050976]
この作業でスイッチトークンと呼ばれる追加のプロンプトトークンは、バックドアモードをオンにすることができ、良心的なモデルをバックドアモードに変換することができる。
事前訓練されたモデルを攻撃するため、SWARMと呼ばれる攻撃はトリガを学習し、スイッチトークンを含むトークンをプロンプトする。
多様な視覚認識タスクの実験は、切り替え可能なバックドア攻撃の成功を確認し、95%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-05-17T08:19:48Z) - Dual Model Replacement:invisible Multi-target Backdoor Attack based on Federal Learning [21.600003684064706]
本稿では,フェデレート学習に基づくバックドア攻撃手法を設計する。
バックドアトリガの隠蔽を目的としたエンコーダデコーダ構造を備えたトロイジャンガンステガノグラフィーモデルが設計されている。
フェデレート学習に基づく二重モデル置換バックドア攻撃アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-22T07:44:02Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - On Certifying Robustness against Backdoor Attacks via Randomized
Smoothing [74.79764677396773]
ランダム化平滑化法(ランダム化平滑化)と呼ばれる最近の手法を用いて,バックドア攻撃に対するロバスト性検証の有効性と有効性を検討した。
本研究は, バックドア攻撃に対するロバスト性を証明するために, ランダムな平滑化を用いた理論的実現可能性を示すものである。
既存の無作為な平滑化手法は、バックドア攻撃に対する防御効果に限界がある。
論文 参考訳(メタデータ) (2020-02-26T19:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。