論文の概要: SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization
- arxiv url: http://arxiv.org/abs/2604.03587v1
- Date: Sat, 04 Apr 2026 04:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.655989
- Title: SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization
- Title(参考訳): SecPI:セキュリティ推論内部化による推論モデルによるセキュアコード生成
- Authors: Hao Wang, Niels Mündler, Mark Vero, Jingxuan He, Dawn Song, Martin Vechev,
- Abstract要約: RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
- 参考スコア(独自算出の注目度): 50.71047638695205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning language models (RLMs) are increasingly used in programming. Yet, even state-of-the-art RLMs frequently introduce critical security vulnerabilities in generated code. Prior training-based approaches for secure code generation face a critical limitation that prevents their direct application to RLMs: they rely on costly, manually curated security datasets covering only a limited set of vulnerabilities. At the inference level, generic security reminders consistently degrade functional correctness while triggering only shallow ad-hoc vulnerability analysis. To address these problems, we present SecPI, a fine-tuning pipeline that teaches RLMs to internalize structured security reasoning, producing secure code by default without any security instructions at inference time. SecPI filters existing general-purpose coding datasets for security-relevant tasks using an LLM-based classifier, generates high-quality security reasoning traces with a teacher model guided by a structured prompt that systematically enumerates relevant CWEs and mitigations, and fine-tunes the target model on pairs of inputs with no security prompt and teacher reasoning traces -- as a result, the model learns to reason about security autonomously rather than in response to explicit instructions. An extensive evaluation on security benchmarks with state-of-the-art open-weight reasoning models validates the effectiveness of our approach. For instance, SecPI improves the percentage of functionally correct and secure generations for QwQ 32B from 48.2% to 62.2% (+14.0 points) on CWEval and from 18.2% to 22.0% on BaxBench. Further investigation also reveals strong cross-CWE and cross-language generalization beyond training vulnerabilities. Even when trained only on injection-related CWEs, QwQ 32B generates correct and secure code 9.9% more frequently on held-out memory-safety CWEs.
- Abstract(参考訳): RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
セキュアなコード生成のためのトレーニングベースのアプローチは、RLMへの直接的な適用を妨げる重要な制限に直面している。
推論レベルでは、一般的なセキュリティリマインダーは機能的正しさを常に低下させ、浅いアドホックな脆弱性分析のみをトリガーする。
これらの問題に対処するために、構造化されたセキュリティ推論を内部化し、推論時にセキュリティ命令を使わずに、デフォルトでセキュアなコードを生成するようにRLMに教える微調整パイプラインSecPIを提案する。
SecPIは、LLMベースの分類器を使用して、セキュリティ関連タスクのための既存の汎用コーディングデータセットをフィルタリングし、関連するCWEと緩和を体系的に列挙する構造化プロンプトによってガイドされる教師モデルによる高品質なセキュリティ推論トレースを生成し、セキュリティプロンプトと教師推論トレースのない入力のペアに対してターゲットモデルを微調整する。
最先端のオープンウェイト推論モデルを用いたセキュリティベンチマークの広範な評価により,提案手法の有効性が検証された。
例えば、SecPIはQwQ 32Bの機能的正確で安全な世代の割合を、CWEvalでは48.2%から62.2%(+14.0ポイント)、BaxBenchでは18.2%から22.0%に改善している。
さらなる調査では、トレーニング脆弱性を越えて、強力なCWEと言語間の一般化も明らかにされている。
インジェクション関連のCWEでのみ訓練されたとしても、QwQ 32Bは9.9%の頻度で正確でセキュアなコードを生成する。
関連論文リスト
- Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - Inference-Time Safety For Code LLMs Via Retrieval-Augmented Revision [3.983997834693767]
大規模言語モデル(LLM)は、高度なソフトウェア開発において、コード生成のためにますます多くデプロイされている。
LLMは、新しく発見された脆弱性やセキュリティ標準の変更に容易に適応できない。
本稿では,推論時安全機構として機能する設計による信頼に値するコード生成への原則的アプローチを提案する。
論文 参考訳(メタデータ) (2026-03-02T06:06:34Z) - Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - SecureCAI: Injection-Resilient LLM Assistants for Cybersecurity Operations [0.0]
本稿では,SecureCAIについて紹介する。SecureCAIは,セキュリティに配慮したガードレールによって,憲法上のAI原則を拡張した新しい防御フレームワークである。
SecureCAIはベースラインモデルと比較して攻撃成功率を94.7%削減する。
論文 参考訳(メタデータ) (2026-01-12T18:59:45Z) - DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。
機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。
我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文 参考訳(メタデータ) (2025-01-14T15:27:01Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。