論文の概要: Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning
- arxiv url: http://arxiv.org/abs/2603.17174v1
- Date: Tue, 17 Mar 2026 22:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.420231
- Title: Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning
- Title(参考訳): ブラックボックスによるコード生成LDMにおけるデータ汚染検出, 脆弱性指向走査
- Authors: Shenao Yan, Shimaa Ahmed, Shan Jin, Sunpreet S. Arora, Yiwei Cai, Yizhen Wang, Yuan Hong,
- Abstract要約: コード生成大型言語モデル(LLM)は、現代のソフトウェア開発にますます統合されている。
既存のスキャンアプローチは、トークンレベルの生成一貫性に依存して、攻撃ターゲットを反転させる。
CodeScanは、コード生成モデルに合わせた最初の中毒検出フレームワークである。
- 参考スコア(独自算出の注目度): 12.405265138053329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation large language models (LLMs) are increasingly integrated into modern software development workflows. Recent work has shown that these models are vulnerable to backdoor and poisoning attacks that induce the generation of insecure code, yet effective defenses remain limited. Existing scanning approaches rely on token-level generation consistency to invert attack targets, which is ineffective for source code where identical semantics can appear in diverse syntactic forms. We present CodeScan, which, to the best of our knowledge, is the first poisoning-scanning framework tailored to code generation models. CodeScan identifies attack targets by analyzing structural similarities across multiple generations conditioned on different clean prompts. It combines iterative divergence analysis with abstract syntax tree (AST)-based normalization to abstract away surface-level variation and unify semantically equivalent code, isolating structures that recur consistently across generations. CodeScan then applies LLM-based vulnerability analysis to determine whether the extracted structures contain security vulnerabilities and flags the model as compromised when such a structure is found. We evaluate CodeScan against four representative attacks under both backdoor and poisoning settings across three real-world vulnerability classes. Experiments on 108 models spanning three architectures and multiple model sizes demonstrate 97%+ detection accuracy with substantially lower false positives than prior methods.
- Abstract(参考訳): コード生成大型言語モデル(LLM)は、現代のソフトウェア開発ワークフローに統合されつつある。
近年の研究では、これらのモデルが安全でないコードの生成を引き起こすバックドアや毒殺攻撃に弱いことが示されているが、効果的な防御は限られている。
既存のスキャニングアプローチは、トークンレベルの生成一貫性に依存して攻撃対象を反転させる。
CodeScanは、私たちの知る限り、コード生成モデルに適した最初の有毒なスキャンフレームワークです。
CodeScanは、異なるクリーンプロンプトで条件付けられた複数世代にわたる構造的類似性を分析して、攻撃対象を特定する。
反復的発散解析と抽象構文木(AST)ベースの正規化を組み合わせることで、表面レベルの変動を抽象化し、意味的に等価なコードを統一し、世代間で一貫して再帰する構造を分離する。
CodeScanはLLMベースの脆弱性分析を適用して、抽出された構造がセキュリティ上の脆弱性を含んでいるかどうかを判断し、そのような構造が見つかった時に、モデルを侵害したとしてフラグを立てる。
CodeScanは、現実世界の3つの脆弱性クラスにおいて、バックドアおよび中毒設定の両方の下で4つの代表的な攻撃に対して評価する。
3つのアーキテクチャと複数のモデルサイズにまたがる108モデルの実験では、検出精度が97%以上で、偽陽性が従来よりもかなり低いことが示されている。
関連論文リスト
- CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Detecting Stealthy Data Poisoning Attacks in AI Code Generators [1.1371178703578924]
本研究は,ステルスシー脅威モデルに基づく既存の中毒検出手法の有効性に関する系統的研究である。
我々は,3つのDLモデル (CodeBERT, CodeT5+, AST-T5) に対して標的毒処理を行い, スペクトルシグネチャ解析, アクティベーションクラスタリング, 静的解析を防御として評価した。
以上の結果から,全ての手法が無作為性中毒の検出に苦慮し,表現に基づくアプローチでは有毒なサンプルの分離が困難であり,静的解析では偽陽性と偽陰性がみられた。
論文 参考訳(メタデータ) (2025-08-29T14:00:06Z) - Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets [8.977790462534152]
本稿では,コードの構造に合わせた新しいラインレベルの検出とクリーン化手法であるDePAを提案する。
DePAは既存の方法よりも優れており、検出F1スコアが0.14-0.19向上し、有毒セグメントの局在精度が44-65%向上した。
論文 参考訳(メタデータ) (2025-02-27T16:30:00Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks [15.531860128240385]
本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。
命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。
我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
論文 参考訳(メタデータ) (2024-04-29T10:14:58Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。