論文の概要: PurpCode: Reasoning for Safer Code Generation
- arxiv url: http://arxiv.org/abs/2507.19060v2
- Date: Thu, 31 Jul 2025 13:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.670672
- Title: PurpCode: Reasoning for Safer Code Generation
- Title(参考訳): PurpCode: エラーコード生成の推論
- Authors: Jiawei Liu, Nirav Diwan, Zhe Wang, Haoyu Zhai, Xiaona Zhou, Kiet A. Nguyen, Tianjiao Yu, Muntasir Wahed, Yinlin Deng, Hadjer Benkraouda, Yuxiang Wei, Lingming Zhang, Ismini Lourentzou, Gang Wang,
- Abstract要約: 安全なコード推論モデルをトレーニングするための最初のトレーニング後レシピであるPurpCodeを紹介します。
PurpCodeはルール学習と強化学習という2つの段階の推論モデルをトレーニングする。
我々は、最先端のサイバー安全性を示す推論に基づくコーディングモデル、すなわちPurpCode-32Bを開発した。
- 参考スコア(独自算出の注目度): 16.705585038366333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PurpCode, the first post-training recipe for training safe code reasoning models towards generating secure code and defending against malicious cyberactivities. PurpCode trains a reasoning model in two stages: (i) Rule Learning, which explicitly teaches the model to reference cybersafety rules to generate vulnerability-free code and to avoid facilitating malicious cyberactivities; and (ii) Reinforcement Learning, which optimizes model safety and preserves model utility through diverse, multi-objective reward mechanisms. To empower the training pipelines with comprehensive cybersafety data, we conduct internal red-teaming to synthesize comprehensive and high-coverage prompts based on real-world tasks for inducing unsafe cyberactivities in the model. Based on PurpCode, we develop a reasoning-based coding model, namely PurpCode-32B, which demonstrates state-of-the-art cybersafety, outperforming various frontier models. Meanwhile, our alignment method decreases the model overrefusal rates in both general and cybersafety-specific scenarios, while preserving model utility in both code generation and common security knowledge.
- Abstract(参考訳): セキュアなコード生成と悪意のあるサイバー活動に対する防御のために、安全なコード推論モデルをトレーニングするための最初のトレーニング後レシピであるPurpCodeを紹介します。
PurpCodeは2段階の推論モデルを訓練する。
一 脆弱性のないコードを生成し、悪意のあるサイバー活動の円滑化を避けるために、サイバー安全規則を参照するよう明示的に指導する規則学習
二 モデル安全性を最適化し、多目的報酬機構を通じてモデル実用性を保全する強化学習。
包括的サイバー安全データによるトレーニングパイプラインの強化を目的として,モデル内の安全でないサイバーアクティビティを誘導する現実的なタスクに基づいて,包括的かつ高包括的なプロンプトを合成する内部リピートを実施している。
PurpCodeをベースとして、さまざまなフロンティアモデルを上回る最先端のサイバー安全性を示す推論ベースのコーディングモデルであるPurpCode-32Bを開発した。
一方、アライメント手法は、コード生成と共通セキュリティ知識の両方においてモデルユーティリティを保ちながら、一般的なシナリオとサイバーセーフティ固有のシナリオの両方におけるモデル過剰率を減少させる。
関連論文リスト
- HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Model-agnostic clean-label backdoor mitigation in cybersecurity environments [6.857489153636145]
近年の研究では、セキュリティ分類タスク用に設計されたモデルにバックドアを注入する、一連の悪質な訓練時間攻撃が表面化している。
我々は、サイバーセキュリティ脅威モデルの洞察を活用して、これらのクリーンラベル中毒攻撃を効果的に軽減する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T03:25:40Z) - Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks [15.531860128240385]
本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。
命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。
我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
論文 参考訳(メタデータ) (2024-04-29T10:14:58Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。