FuguReport

Minimal Prompt Perturbations Lead to Code Vulnerabilities: Prompt Fragility and Hidden-State Signals in Coding LLMs

著者 Alexander Sternfeld, Andrei Kucharavy, Ljiljana Dolamic
所属 HES-SO / armasuisse Science and Technology
カテゴリ Evaluation / Model Safety Evaluation / Prompt fragility in coding LLMs, Task / Code Generation / Security impact of prompt mutations, Method / Vulnerability Analysis / Hidden-state intervention techniques
ライセンス CC BY 4.0

Abstractの概要

本論文はCWEvalベンチマークを使用し、非常に小さなプロンプトの摂動がコーディングLLMによって生成されたコードのセキュリティを変化させるかどうかを調査している。著者らは、5つのプログラミング言語にわたる3つのオープンなコーディングモデルを対象に、1文字、3文字、およびトークンレベルのプロンプト変異を用いてテストし、機能性ならびに機能性とセキュリティの統合評価を実行している。たった1文字の変更でも生成されたコードが安全な状態から脆弱な状態へと反転する可能性があり、その影響は言語、CWEカテゴリ、トークンの位置、および具体的な変異によって異なることを発見した。また、プロンプトの最後のトークンにおける隠れ状態を調査し、脆弱性のタイプによってシグナルは不均一であるものの、一部の脆弱性の結果が生成前にすでに部分的にエンコードされていることを示している。

新規性

本論文は、従来のプロンプトの堅牢性に関する研究を機能的な正確さからコードのセキュリティへと拡張し、敵対的なプロンプトだけでなく、通常のプロンプトの変動でも脆弱性が導入される可能性があることを示している。また、変異解析と隠れ状態のプロービング、およびCWEごとの内訳を組み合わせ、入力処理と安全なデフォルトの選択に関する脆弱性のパターンを区別している。

成果

影響の広さおよび深さを対象とした解析の双方において、プロンプトの変異は多くのCWEカテゴリに影響を与え、結果を改善するよりも悪化させることが多かった(効果量ではQwen3-CoderがCodeLlamaやDeepSeek-Coderよりも堅牢であった)。機能性とセキュリティの両方を対象とした隠れ状態のプローブは全体で約0.70の平均AUCを達成し、安全なデフォルト値に関する脆弱性(平均AUC 0.674; 片側マン・ホイットニー検定 p=0.009)よりも、入力処理に関する脆弱性(平均AUC 0.753)の方がより高い予測可能性を示した。また本研究は、結果の反転の一部は主に変異の位置に起因する一方で、特定のトークン変更により強く依存するものもあることを示している。

論文の注目点

  1. 摂動が最小限であっても、たった1文字のプロンプト編集でLLMの生成するコードが安全なものから脆弱なものへと変化する可能性がある。
  2. 変異の影響は一様ではなく、モデル、言語、CWE、トークンの位置、および具体的な置換がプロンプトのセキュリティに重要な部分を変更するかどうかによって異なる。
  3. プロンプト末尾の隠れ状態には有用だが不均一なセキュリティシグナルが含まれており、局所的な安全なデフォルトの選択によって決まる脆弱性よりも、検証やサニタイズの追加を必要とする脆弱性の方が高い予測可能性を示す。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。