論文の概要: Detecting Stealthy Data Poisoning Attacks in AI Code Generators
- arxiv url: http://arxiv.org/abs/2508.21636v1
- Date: Fri, 29 Aug 2025 14:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.064881
- Title: Detecting Stealthy Data Poisoning Attacks in AI Code Generators
- Title(参考訳): AIコードジェネレータにおけるステルスデータ攻撃の検出
- Authors: Cristina Improta,
- Abstract要約: 本研究は,ステルスシー脅威モデルに基づく既存の中毒検出手法の有効性に関する系統的研究である。
我々は,3つのDLモデル (CodeBERT, CodeT5+, AST-T5) に対して標的毒処理を行い, スペクトルシグネチャ解析, アクティベーションクラスタリング, 静的解析を防御として評価した。
以上の結果から,全ての手法が無作為性中毒の検出に苦慮し,表現に基づくアプローチでは有毒なサンプルの分離が困難であり,静的解析では偽陽性と偽陰性がみられた。
- 参考スコア(独自算出の注目度): 1.1371178703578924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) models for natural language-to-code generation have become integral to modern software development pipelines. However, their heavy reliance on large amounts of data, often collected from unsanitized online sources, exposes them to data poisoning attacks, where adversaries inject malicious samples to subtly bias model behavior. Recent targeted attacks silently replace secure code with semantically equivalent but vulnerable implementations without relying on explicit triggers to launch the attack, making it especially hard for detection methods to distinguish clean from poisoned samples. We present a systematic study on the effectiveness of existing poisoning detection methods under this stealthy threat model. Specifically, we perform targeted poisoning on three DL models (CodeBERT, CodeT5+, AST-T5), and evaluate spectral signatures analysis, activation clustering, and static analysis as defenses. Our results show that all methods struggle to detect triggerless poisoning, with representation-based approaches failing to isolate poisoned samples and static analysis suffering false positives and false negatives, highlighting the need for more robust, trigger-independent defenses for AI-assisted code generation.
- Abstract(参考訳): 自然言語からコードへの生成のためのディープラーニング(DL)モデルは、現代のソフトウェア開発パイプラインにとって不可欠なものになっている。
しかし、無害なオンラインソースから収集される大量のデータに大きく依存しているため、敵が悪意あるサンプルを注入して微妙なバイアスモデル行動を行うデータ中毒攻撃に晒される。
最近のターゲットアタックは、攻撃を開始するための明示的なトリガーに頼ることなく、セマンティックに等価だが脆弱な実装でセキュアなコードをサイレントに置き換えている。
本研究は、このステルスシー脅威モデルに基づく既存の中毒検出方法の有効性に関する系統的研究である。
具体的には,3つのDLモデル (CodeBERT, CodeT5+, AST-T5) に対して標的毒処理を行い, スペクトルシグネチャ解析, アクティベーションクラスタリング, 静的解析を防御として評価する。
以上の結果から,AIを用いたコード生成において,より堅牢でトリガーに依存しない防御の必要性が強調された。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Vulnerabilities in AI Code Generators: Exploring Targeted Data Poisoning
Attacks [9.386731514208149]
本研究では、AIコードジェネレータのセキュリティを、ターゲットとするデータ中毒戦略を考案することによって調査する。
セキュリティ脆弱性を含むコードの量を増やしてトレーニングデータを汚染します。
私たちの研究は、AIコードジェネレータが少量の毒にも弱いことを示しています。
論文 参考訳(メタデータ) (2023-08-04T15:23:30Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Temporal Robustness against Data Poisoning [69.01705108817785]
データ中毒は、悪意のあるトレーニングデータを通じて、敵対者が機械学習アルゴリズムの振る舞いを操作する場合を考慮している。
本研究では,攻撃開始時間と攻撃持続時間を測定する2つの新しい指標である耳線と持続時間を用いたデータ中毒の時間的脅威モデルを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:59:19Z) - DeepPoison: Feature Transfer Based Stealthy Poisoning Attack [2.1445455835823624]
DeepPoisonは、1つの発電機と2つの識別器の斬新な敵対ネットワークです。
DeepPoisonは最先端の攻撃成功率を91.74%まで達成できる。
論文 参考訳(メタデータ) (2021-01-06T15:45:36Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。