論文の概要: Learning to Generate Secure Code via Token-Level Rewards
- arxiv url: http://arxiv.org/abs/2602.23407v1
- Date: Thu, 26 Feb 2026 12:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.081938
- Title: Learning to Generate Secure Code via Token-Level Rewards
- Title(参考訳): Token-Level Rewardsによるセキュアコード生成の学習
- Authors: Jiazheng Quan, Xiaodong Li, Bin Wang, Guo An, Like Liu, Degen Huang, Lin Liu, Chengbin Hou,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成において強力な機能を示しているが、セキュリティ上の脆弱性を生み出す傾向にある。
我々は、自己回帰を利用して現実世界の脆弱性から高信頼の修復ペアを構築する新しいセキュアコード生成フレームワークであるVul2Safeを提案する。
また、コードセキュリティのための強化学習におけるトークンレベルの報酬の使用を先駆する、新しいトレーニングフレームワークSRCodeも導入しています。
- 参考スコア(独自算出の注目度): 11.539519023515021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong capabilities in code generation, yet they remain prone to producing security vulnerabilities. Existing approaches commonly suffer from two key limitations: the scarcity of high-quality security data and coarse-grained reinforcement learning reward signals. To address these challenges, we propose Vul2Safe, a new secure code generation framework that leverages LLM self-reflection to construct high-confidence repair pairs from real-world vulnerabilities, and further generates diverse implicit prompts to build the PrimeVul+ dataset. Meanwhile, we introduce SRCode, a novel training framework that pioneers the use of token-level rewards in reinforcement learning for code security, which enables the model to continuously attend to and reinforce critical fine-grained security patterns during training. Compared with traditional instance-level reward schemes, our approach allows for more precise optimization of local security implementations. Extensive experiments show that PrimeVul+ and SRCode substantially reduce security vulnerabilities in generated code while improving overall code quality across multiple benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成において強力な機能を示しているが、セキュリティ上の脆弱性を生み出す傾向にある。
既存のアプローチでは、高品質なセキュリティデータの不足と、粗大な強化学習報酬信号の不足という、2つの重要な制限がある。
これらの課題に対処するため、LLM自己回帰を利用して現実の脆弱性から高信頼の修復ペアを構築し、さらにPrimeVul+データセットを構築するためのさまざまな暗黙的なプロンプトを生成する、新たなセキュアなコード生成フレームワークであるVul2Safeを提案する。
一方、SRCodeは、コードセキュリティのための強化学習におけるトークンレベルの報酬の使用を先駆する、新しいトレーニングフレームワークである。
従来のインスタンスレベルの報酬方式と比較して、我々の手法はローカルなセキュリティ実装をより正確に最適化することができる。
大規模な実験によると、PrimeVul+とSRCodeは、生成されたコードのセキュリティ上の脆弱性を大幅に減らし、複数のベンチマークで全体的なコード品質を改善している。
関連論文リスト
- Inference-Time Safety For Code LLMs Via Retrieval-Augmented Revision [3.983997834693767]
大規模言語モデル(LLM)は、高度なソフトウェア開発において、コード生成のためにますます多くデプロイされている。
LLMは、新しく発見された脆弱性やセキュリティ標準の変更に容易に適応できない。
本稿では,推論時安全機構として機能する設計による信頼に値するコード生成への原則的アプローチを提案する。
論文 参考訳(メタデータ) (2026-03-02T06:06:34Z) - Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - RESCUE: Retrieval Augmented Secure Code Generation [5.001448044530164]
2つの重要な革新を伴うセキュアなコード生成のための新しいフレームワークであるRESCUEを提案する。
まず, LLMを用いたクラスタ列化蒸留とプログラムスライシングを組み合わせたハイブリッド知識ベース構築法を提案する。
第2に,構築した知識ベースを上から下へトラバースする階層的多面検索を設計し,階層レベルで複数のセキュリティクリティカルな事実を統合する。
論文 参考訳(メタデータ) (2025-10-21T01:13:03Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。