論文の概要: An Empirical Evaluation of LLM-Generated Code Security Across Prompting Methods
- arxiv url: http://arxiv.org/abs/2605.24298v1
- Date: Fri, 22 May 2026 23:52:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.854475
- Title: An Empirical Evaluation of LLM-Generated Code Security Across Prompting Methods
- Title(参考訳): プロンプト法によるLLM生成符号セキュリティの実証評価
- Authors: Mohammed Kharma, Ahmed Sabbah, Mohammad Alkhanafseh, Mohammad Hammoudeh, David Mohaisen,
- Abstract要約: 自動コード生成のための大規模言語モデル(LLM)は、ソフトウェア開発の効率を向上するが、しばしばセキュリティの犠牲になる。
5つのLLMおよび4つのプログラミング言語にわたるLLM生成コードのセキュリティ品質を総合的に評価する。
モデル推論を導くために,CWEマッピングを用いてセキュリティコンテキストでプロンプトを充実させる手法として,弱点を意識したゼロショット・チェーン・オブ・ソート(WA-0CoT)を導入する。
- 参考スコア(独自算出の注目度): 11.454777386934632
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing use of Large Language Models (LLMs) for automated code generation has enhanced software development efficiency, but often at the cost of security. Generated code frequently overlooks critical concerns, leaving it vulnerable to issues such as weak encryption and improper input validation. To investigate this problem, we present a comprehensive empirical evaluation of the security quality of LLM-generated code across five LLMs and four programming languages (Java, C++, C, and Python), examining the impact of multiple prompt engineering methods. We introduce a weaknesses-aware zero-shot chain-of-thought (WA-0CoT) prompting strategy that enriches prompts with security context using CWE mappings to guide model reasoning. Our empirical analysis, supported by chi-square tests, finds no statistically significant reductions in vulnerability frequency or density across prompt methods. However, prompting strategies, including WA-0CoT, systematically influence the compositional distribution of CWE categories, with effects varying by programming language. These findings suggest that while security-aware prompting alters the structure of generated weaknesses, prompt engineering alone is insufficient to reliably reduce overall vulnerability levels. The results highlight the importance of language-aware and model-aware prompt design when evaluating the security properties of LLM-generated code.
- Abstract(参考訳): コードの自動生成にLarge Language Models (LLM) の利用が増加し、ソフトウェア開発の効率が向上したが、しばしばセキュリティの犠牲となった。
生成されたコードは、しばしば重大な問題を見落とし、弱い暗号化や不適切な入力検証のような問題に弱いままである。
そこで本研究では,5つのLLMおよび4つのプログラミング言語(Java, C++, C, Python)にわたるLLM生成コードのセキュリティ品質を総合的に評価し,複数のプロンプトエンジニアリング手法の影響について検討する。
モデル推論を導くために,CWEマッピングを用いてセキュリティコンテキストでプロンプトを充実させる手法として,弱みを意識したゼロショット・チェーン・オブ・シークレット(WA-0CoT)を導入する。
我々の実証分析は、チ二乗検定によって支えられ、プロンプト法による脆弱性頻度や密度の統計的に有意な低下は見つからない。
しかし、WA-0CoTを含むプロンプト戦略はCWEカテゴリの構成分布に体系的に影響を与え、プログラミング言語によって異なる。
これらの結果から,セキュリティを意識したプロンプトは発生した弱点の構造を変えるが,エンジニアリングだけでは全体の脆弱性レベルを確実に低下させるには不十分であることが示唆された。
その結果、LLM生成コードのセキュリティ特性を評価する際に、言語認識とモデル認識のプロンプト設計の重要性を強調した。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies [4.435429537888066]
大規模言語モデル(LLM)は自動コード生成には不可欠だが、出力の品質とセキュリティは依然として重要な問題である。
本稿では,目標の明確性,情報の完全性,論理的整合性という3つの重要な側面を含む,迅速な品質評価フレームワークを提案する。
ユーザプロンプトの品質向上は,AI生成コードのセキュリティを強化する上で,重要かつ効果的な戦略となっている。
論文 参考訳(メタデータ) (2025-10-27T02:59:17Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Guiding AI to Fix Its Own Flaws: An Empirical Study on LLM-Driven Secure Code Generation [16.29310628754089]
大規模言語モデル(LLM)は、コードの自動生成のための強力なツールになっている。
LLMは、しばしば重要なセキュリティプラクティスを見落とし、安全でないコードを生成する。
本稿では、安全性の低いコードを生成するための固有の傾向、自己生成する脆弱性ヒントによってガイドされた場合にセキュアなコードを生成する能力、フィードバックレベルが異なる場合に脆弱性を修復する効果について検討する。
論文 参考訳(メタデータ) (2025-06-28T23:24:33Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。