論文の概要: Poison with Style: A Practical Poisoning Attack on Code Large Language Models
- arxiv url: http://arxiv.org/abs/2605.27631v1
- Date: Tue, 26 May 2026 19:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.490596
- Title: Poison with Style: A Practical Poisoning Attack on Code Large Language Models
- Title(参考訳): Poison with Style: コード大言語モデルに対する実践的なポジティング攻撃
- Authors: Khang Tran, Yazan Boshmaf, Issa Khalil, NhatHai Phan, Ting Yu, Md Rizwan Parvez,
- Abstract要約: Code Large Language Models (CLLM) は現代のコードエージェントの中核として機能し、開発者は複雑なソフトウェア開発タスクを自動化できる。
CLLMを標的とした実用的でステルスなモデル中毒攻撃であるPoison-with-Style (PwS)について述べる。
- 参考スコア(独自算出の注目度): 13.076170004480604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code Large Language Models (CLLMs) serve as the core of modern code agents, enabling developers to automate complex software development tasks. In this paper, we present Poison-with-Style (PwS), a practical and stealthy model poisoning attack targeting CLLMs. Unlike prior attacks that assume an active adversary capable of directly embedding explicit triggers (e.g., specific words) into developers' prompts during inference, PwS leverages developers' code styles as covert triggers implicitly embedded within their prompts. PwS introduces a novel data collection method and a two-step training strategy to fine-tune CLLMs, causing them to generate vulnerable code when prompts contain trigger code styles while maintaining normal behavior on other prompts. Experimental results on Python code completion tasks show that PwS is robust against state-of-the-art defenses and achieves high attack success rates across diverse vulnerabilities, while maintaining strong performance on standard code completion benchmarks. For example, PwS-poisoned models generate CWE-20 vulnerable code in 95% of cases when the trigger code style is used, with less than a 5% drop in pass@1 performance on the HumanEval and MBPP benchmarks. Our implementation and dataset are here: https://github.com/khangtran2020/pws.
- Abstract(参考訳): Code Large Language Models (CLLM) は現代のコードエージェントのコアとして機能し、開発者は複雑なソフトウェア開発タスクを自動化できる。
本稿では,CLLMを標的とした実用的でステルスなモデル中毒攻撃であるPoison-with-Style(PwS)を提案する。
推論中に明示的なトリガ(例えば特定の単語)を直接開発者のプロンプトに埋め込むことができるアクティブな敵を仮定する以前の攻撃とは異なり、PwSはプロンプト内に暗黙的に埋め込まれた隠蔽トリガとして開発者のコードスタイルを活用する。
PwSは、CLLMを微調整するための新しいデータ収集方法と2段階のトレーニング戦略を導入し、プロンプトがトリガーコードスタイルを含む場合、他のプロンプトの通常の動作を維持しながら脆弱性のあるコードを生成する。
Pythonコード補完タスクの実験結果によると、PwSは最先端の防御に対して堅牢であり、さまざまな脆弱性に対して高い攻撃成功率を達成すると同時に、標準的なコード補完ベンチマーク上での強力なパフォーマンスを維持している。
例えば、PwSで汚染されたモデルは、トリガーコードスタイルを使用する場合の95%でCWE-20脆弱性コードを生成し、HumanEvalとMBPPベンチマークでは、パス@1のパフォーマンスは5%以下である。
私たちの実装とデータセットは以下の通りです。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection [66.94175259287115]
命令調整型LLMに適した新しいバックドアアタック設定を提案する。
VPI攻撃では、攻撃者が特定した仮想プロンプトがユーザ命令に形式化されたかのように、バックドアモデルが応答することが期待されている。
我々は、モデルの命令チューニングデータに毒を盛ることによって脅威を実証する。
論文 参考訳(メタデータ) (2023-07-31T17:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。