論文の概要: Enhancing Reliability in LLM-Based Secure Code Generation
- arxiv url: http://arxiv.org/abs/2605.24300v1
- Date: Fri, 22 May 2026 23:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.856623
- Title: Enhancing Reliability in LLM-Based Secure Code Generation
- Title(参考訳): LLMに基づくセキュアコード生成における信頼性向上
- Authors: Mohammed F. Kharma, Mohammad Alkhanafseh, Ahmed Sabbah, David Mohaisen,
- Abstract要約: 大規模言語モデル(LLM)はコード生成に広く使用されているが、セキュリティの信頼性は言語間で不整合であり、戦略を推進している。
タスク固有のCWE緩和ガイダンスと言語対応セーフガードを組み込んだtextitMitigation-Aware Chain-of-Thought(MA-CoT)フレームワークを紹介する。
我々は、3つのLLM(gpt-5, claude-4.5, gemini-2.5)、3つのプログラミング言語(C, Java, Python)、4つのプロンプト戦略についてMA-CoTを評価した。
- 参考スコア(独自算出の注目度): 10.791767027934858
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are widely used for code generation, but their security reliability remains inconsistent across languages and prompting strategies. Existing prompt engineering improves functional correctness but rarely ensures consistent security outcomes. We introduce the \textit{Mitigation-Aware Chain-of-Thought (MA-CoT)} framework, which embeds task-specific CWE mitigation guidance and language-aware safeguards to reduce recurring vulnerabilities in generated code. We evaluate MA-CoT across three LLMs (gpt-5, claude-4.5, gemini-2.5), three programming languages (C, Java, Python), and four prompting strategies (Vanilla, Zero-shot, CoT, MA-CoT) on a 200-task primary dataset, with external validation on LLMSecEval. Using static analysis with expert validation, MA-CoT reduces total security findings from 92 to 39 (57.6\%) on the primary dataset and from 73 to 4 (94.5\%) on LLMSecEval. High-severity findings (Blocker + Critical) drop from 90 to 39 (56.7\%) and from 45 to 2 (95.6\%), respectively. Across both datasets, MA-CoT is the only strategy that consistently improves security reliability; Zero-shot and CoT are less reliable and may increase vulnerability, especially in C. We further introduce a strict layered attribution of vulnerability drivers (language-core vs. stack layers) and show that residual risk concentrates in hardening-oriented patterns (e.g., OS- and toolchain-dependent), motivating secure-by-construction primitives alongside prompting.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成に広く使用されているが、セキュリティの信頼性は言語間で不整合であり、戦略を推進している。
既存のプロンプトエンジニアリングは機能的正確性を改善するが、一貫したセキュリティ結果を保証することは滅多にない。
タスク固有のCWE緩和ガイダンスと言語対応セーフガードを組み込んだ,生成されたコードにおける繰り返し脆弱性の軽減を目的とした,‘textit{Mitigation-Aware Chain-of-Thought(MA-CoT)’フレームワークを紹介した。
我々は,3つのLLM(gpt-5, claude-4.5, gemini-2.5),3つのプログラミング言語(C, Java, Python),4つのプロンプト戦略(Vanilla, Zero-shot, CoT, MA-CoT)を200タスクのプライマリデータセット上で評価し,LLMSecEvalの外部検証を行った。
MA-CoTは、専門家による検証による静的解析を用いて、プライマリデータセットで92から39に(57.6\%)、LLMSecEvalで73から4に(94.5\%)削減する。
高重度 (Blocker + critical) は 90 から 39 (56.7 %) と 45 から 2 (95.6 %) に減少する。
ゼロショットとCoTは信頼性が低く、特にC言語では脆弱性を増加させる可能性がある。さらに、脆弱性ドライバ(言語コア対スタック層)の厳密な属性を導入し、残リスクがハードニング指向のパターン(OS依存、ツールチェーン依存など)に集中し、プロンプトと同時にセキュア・バイ・コンストラクションプリミティブを動機付けることを示す。
関連論文リスト
- SecureForge: Finding and Preventing Vulnerabilities in LLM-Generated Code via Prompt Optimization [61.91729298584227]
SecureForgeは、フロンティアモデルのセキュリティリスクを監査し、監査インフォームされたセキュアなシステムプロンプトを生成する自動化パイプラインである。
SecureForgeは、まず静的に検出可能な脆弱性を生成する良性プロンプトを特定し、その後、さまざまなシナリオの大規模な合成プロンプトコーパスに増幅する。
フロンティアモデルでは、SecureForgeは、ユニットテストの成功と出力セキュリティの両方において統計的に有意な改善をもたらし、出力脆弱性は最大48%削減された。
論文 参考訳(メタデータ) (2026-05-08T18:40:47Z) - SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization [18.013438474903314]
本稿では,スマートコントラクト生成をセキュアかつ説明可能なフレームワークであるSmartCoder-R1を提案する。
我々は、人間のセキュリティ分析をエミュレートするためにモデルを訓練する。
SmartCoder-R1は、テクニックの新たな状態を確立し、5つの主要なメトリクスで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-12T03:14:50Z) - Towards Effective Complementary Security Analysis using Large Language Models [3.203446435054805]
セキュリティ分析における重要な課題は、静的アプリケーションセキュリティテスト(SAST)ツールによって生成される潜在的なセキュリティの弱点を手動で評価することである。
本研究では,SAST 結果の評価を改善するために,Large Language Models (LLMs) を提案する。
論文 参考訳(メタデータ) (2025-06-20T10:46:35Z) - Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models [60.38983114420845]
本稿では、下流タスクのコア機能をよりよく保存するための二重リスク最小化(DRM)を提案する。
DRMは期待されるパフォーマンスと最悪のパフォーマンスのバランスをとり、さまざまな実世界のベンチマークで新たな最先端技術を確立します。
論文 参考訳(メタデータ) (2024-11-29T15:01:25Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。