論文の概要: Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation
- arxiv url: http://arxiv.org/abs/2602.11213v1
- Date: Wed, 11 Feb 2026 08:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.453259
- Title: Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation
- Title(参考訳): シャープネスを考慮した逆方向摂動によるコードモデルへのトランスファー可能なバックドアアタック
- Authors: Shuyu Chang, Haiping Huang, Yanjun Zhang, Yujin Huang, Fu Xiao, Leo Yu Zhang,
- Abstract要約: 既存のコードモデルに対するバックドア攻撃は、転送可能性とステルスネスの基本的なトレードオフに直面します。
シャープネス対応トランスファー可能なバックドア(STAB)を提案する。
STABは、完全な犠牲者データを必要とすることなく、転送可能性とステルス性の両方を達成する。
- 参考スコア(独自算出の注目度): 37.091275561451695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code models are increasingly adopted in software development but remain vulnerable to backdoor attacks via poisoned training data. Existing backdoor attacks on code models face a fundamental trade-off between transferability and stealthiness. Static trigger-based attacks insert fixed dead code patterns that transfer well across models and datasets but are easily detected by code-specific defenses. In contrast, dynamic trigger-based attacks adaptively generate context-aware triggers to evade detection but suffer from poor cross-dataset transferability. Moreover, they rely on unrealistic assumptions of identical data distributions between poisoned and victim training data, limiting their practicality. To overcome these limitations, we propose Sharpness-aware Transferable Adversarial Backdoor (STAB), a novel attack that achieves both transferability and stealthiness without requiring complete victim data. STAB is motivated by the observation that adversarial perturbations in flat regions of the loss landscape transfer more effectively across datasets than those in sharp minima. To this end, we train a surrogate model using Sharpness-Aware Minimization to guide model parameters toward flat loss regions, and employ Gumbel-Softmax optimization to enable differentiable search over discrete trigger tokens for generating context-aware adversarial triggers. Experiments across three datasets and two code models show that STAB outperforms prior attacks in terms of transferability and stealthiness. It achieves a 73.2% average attack success rate after defense, outperforming static trigger-based attacks that fail under defense. STAB also surpasses the best dynamic trigger-based attack by 12.4% in cross-dataset attack success rate and maintains performance on clean inputs.
- Abstract(参考訳): コードモデルはソフトウェア開発ではますます採用されているが、有毒なトレーニングデータによるバックドア攻撃には弱いままである。
既存のコードモデルに対するバックドア攻撃は、転送可能性とステルスネスの基本的なトレードオフに直面します。
静的トリガベースの攻撃は、モデルやデータセット間でうまく転送されるが、コード固有の防御によって容易に検出される固定されたデッドコードパターンを挿入する。
対照的に、動的トリガーベースの攻撃は、検出を避けるためにコンテキスト認識トリガーを適応的に生成するが、データセット間の転送性が劣る。
さらに、有毒者と被害者のトレーニングデータ間の同一データ分布の非現実的な仮定に依存しており、その実用性は制限されている。
これらの制限を克服するため,本研究では,完全な被害者データを必要としないトランスファービリティとステルスネスを両立させる新たな攻撃である,シャープネス対応トランスファーヤブル・バックドア(STAB)を提案する。
STABは、ロスランドスケープの平坦な領域における敵の摂動が、シャープなミニマよりもデータセット間で効果的に移動するという観察に動機付けられている。
この目的のために,シャープネス・アウェア・ミニマリゼーション(Sharpness-Aware Minimization)を用いてモデルパラメータを平坦な損失領域へ誘導するサロゲートモデルを訓練し,Gumbel-Softmax 最適化を用いて,コンテキスト対応の逆数トリガを生成するための離散トリガトークンを微分可能な探索を可能にする。
3つのデータセットと2つのコードモデルにわたる実験によると、STABは転送可能性とステルスネスの点で、以前の攻撃よりも優れていた。
防御後に平均73.2%の攻撃成功率を達成し、防御下で失敗する静的トリガーベースの攻撃を上回っている。
STABはまた、クロスデータセット攻撃の成功率で12.4%の動的トリガーベースの攻撃を12.4%上回り、クリーンな入力のパフォーマンスを維持している。
関連論文リスト
- FAROS: Robust Federated Learning with Adaptive Scaling against Backdoor Attacks [9.466036066320946]
バックドア攻撃は連邦学習(FL)に重大な脅威をもたらす
適応微分スケーリング(ADS)とロバストコアセットコンピューティング(RCC)を組み合わせた拡張FLフレームワークであるFAROSを提案する。
RCCは、最も信頼性の高いクライアントからなるコアセットのセントロイドを計算することで、単一ポイント障害のリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2026-01-05T06:55:35Z) - Semantically-Equivalent Transformations-Based Backdoor Attacks against Neural Code Models: Characterization and Mitigation [13.36343806244795]
セマンティック・等価トランスフォーメーション(SET)ベースのバックドアアタックと呼ばれる,新たなバックドアアタックを導入する。
SETをベースとした攻撃は、モデルユーティリティを保ちながら高い成功率(しばしば90%)を達成することを示す。
この攻撃は高いステルス性を示し、注射ベースの防御よりも平均25.13%以上低い検出率で最先端の防御を回避している。
論文 参考訳(メタデータ) (2025-12-22T09:54:52Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。
本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:01:35Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - A Practical Trigger-Free Backdoor Attack on Neural Networks [33.426207982772226]
トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。
具体的には、悪意のあるデータの概念を攻撃者特定クラスの概念に組み込んだ、新しい微調整アプローチを設計する。
提案した攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで評価した。
論文 参考訳(メタデータ) (2024-08-21T08:53:36Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。
本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文 参考訳(メタデータ) (2023-07-31T11:05:55Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。