論文の概要: SecureForge: Finding and Preventing Vulnerabilities in LLM-Generated Code via Prompt Optimization
- arxiv url: http://arxiv.org/abs/2605.08382v1
- Date: Fri, 08 May 2026 18:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.601064
- Title: SecureForge: Finding and Preventing Vulnerabilities in LLM-Generated Code via Prompt Optimization
- Title(参考訳): SecureForge: Prompt OptimizationによるLLM生成コードの脆弱性の検出と防止
- Authors: Houjun Liu, Lisa Einstein, John Yang, Joachim Baumann, Duncan Eddy, Christopher D. Manning, Mykel Kochenderfer, Diyi Yang,
- Abstract要約: SecureForgeは、フロンティアモデルのセキュリティリスクを監査し、監査インフォームされたセキュアなシステムプロンプトを生成する自動化パイプラインである。
SecureForgeは、まず静的に検出可能な脆弱性を生成する良性プロンプトを特定し、その後、さまざまなシナリオの大規模な合成プロンプトコーパスに増幅する。
フロンティアモデルでは、SecureForgeは、ユニットテストの成功と出力セキュリティの両方において統計的に有意な改善をもたらし、出力脆弱性は最大48%削減された。
- 参考スコア(独自算出の注目度): 61.91729298584227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM coding agents now generate code at an unprecedented scale, yet LLM-generated code introduces cybersecurity vulnerabilities into codebases without human involvement. Even when frontier models are explicitly asked to write secure production code with relevant weaknesses to avoid in context, we find that they still produce verifiable vulnerabilities on average 23% of the time across a corpus of 250 benign coding prompts. We introduce SecureForge, an automated pipeline that both audits security risks of frontier models and produces auditing-informed secure system prompts that reduce output security vulnerabilities while maintaining unit test performance. SecureForge first identifies benign prompts that produce statically detectable vulnerabilities, and then amplifies them into a large synthetic prompt corpus of diverse scenarios using a Markovian sampling technique to jointly maintain error rates and prompt diversity. This corpus is then used to iteratively optimize the system prompts to reduce output security vulnerabilities. On frontier models, SecureForge yields a statistically significant Pareto improvement in both unit test success and output security, with output vulnerabilities reduced by up to 48%. The resulting system prompts transfer zero-shot to in-the-wild coding agent prompts, without any exposure to real user prompt distributions during optimization.
- Abstract(参考訳): LLMコーディングエージェントは前例のない規模でコードを生成するが、LLMが生成するコードは、人間の関与なしにコードベースにサイバーセキュリティ脆弱性を導入する。
フロンティアモデルに、コンテキスト内で避けるために適切な弱点のあるセキュアなプロダクションコードを記述するよう明示的に要求しても、250の良心的なコーディングプロンプトのコーパスを通じて、平均23%の時間で検証可能な脆弱性を発生させています。
SecureForgeは、フロンティアモデルのセキュリティリスクを監査し、ユニットテストのパフォーマンスを維持しながら出力セキュリティの脆弱性を低減する監査インフォームされたセキュアシステムプロンプトを生成する自動化パイプラインである。
SecureForgeは、まず静的に検出可能な脆弱性を生成する良質なプロンプトを特定し、Markovianサンプリング技術を使用して、さまざまなシナリオの大規模な合成プロンプトコーパスに増幅して、エラー率を共同で維持し、多様性を促進させる。
このコーパスは、出力セキュリティの脆弱性を減らすために、システムのプロンプトを反復的に最適化するために使用される。
フロンティアモデルでは、SecureForgeは、ユニットテストの成功と出力セキュリティの両方において統計的に重要なParetoの改善をもたらし、出力脆弱性は最大48%削減された。
得られたシステムは、最適化中に実際のユーザのプロンプト分布に露出することなく、ゼロショットを中間符号化エージェントに転送する。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios [17.276786247873613]
SecureAgentBenchは、セキュアなコード生成において、コードエージェントの機能を厳格に評価するために設計された105のコーディングタスクのベンチマークである。
その結果、(i)現在のエージェントがセキュアなコードを生成するのに苦労していることが示され、最高のパフォーマンスのエージェントであるDeepSeek-V3.1がサポートしているSWE-agentも15.2%の正安のソリューションしか達成していない。
論文 参考訳(メタデータ) (2025-09-26T09:18:57Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - A Mixture of Linear Corrections Generates Secure Code [20.94236753015922]
大規模言語モデル(LLM)は、洗練されたコード生成タスクに熟練しているが、コードの脆弱性を確実に検出または回避するには効果がない。
現在のLLMは、脆弱なコードとセキュアなコードとを区別する正確な内部表現を符号化している。
本研究では,モデルのトークン生成確率を補正によって微調整する推論時ステアリング手法を開発した。
論文 参考訳(メタデータ) (2025-07-13T06:27:33Z) - Guiding AI to Fix Its Own Flaws: An Empirical Study on LLM-Driven Secure Code Generation [16.29310628754089]
大規模言語モデル(LLM)は、コードの自動生成のための強力なツールになっている。
LLMは、しばしば重要なセキュリティプラクティスを見落とし、安全でないコードを生成する。
本稿では、安全性の低いコードを生成するための固有の傾向、自己生成する脆弱性ヒントによってガイドされた場合にセキュアなコードを生成する能力、フィードバックレベルが異なる場合に脆弱性を修復する効果について検討する。
論文 参考訳(メタデータ) (2025-06-28T23:24:33Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
既存のメソッドは、インストラクションチューニングのための現実世界の脆弱性からセキュリティに焦点を当てたデータセットを収集する。
コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新しいプロアクティブなセキュリティアライメントアプローチであるProSecを提案する。
論文 参考訳(メタデータ) (2024-11-19T22:00:01Z) - PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。
本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文 参考訳(メタデータ) (2024-07-25T05:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。