論文の概要: PurpCode: Reasoning for Safer Code Generation
- arxiv url: http://arxiv.org/abs/2507.19060v1
- Date: Fri, 25 Jul 2025 08:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.882488
- Title: PurpCode: Reasoning for Safer Code Generation
- Title(参考訳): PurpCode: エラーコード生成の推論
- Authors: Jiawei Liu, Nirav Diwan, Zhe Wang, Haoyu Zhai, Xiaona Zhou, Kiet A. Nguyen, Tianjiao Yu, Muntasir Wahed, Yinlin Deng, Hadjer Benkraouda, Yuxiang Wei, Lingming Zhang, Ismini Lourentzou, Gang Wang,
- Abstract要約: 安全なコード推論モデルをトレーニングするための最初のトレーニング後レシピであるPurpCodeを紹介します。
PurpCodeはルール学習と強化学習という2つの段階の推論モデルをトレーニングする。
我々は、最先端のサイバー安全性を示す推論に基づくコーディングモデル、すなわちPurpCode-32Bを開発した。
- 参考スコア(独自算出の注目度): 16.705585038366333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PurpCode, the first post-training recipe for training safe code reasoning models towards generating secure code and defending against malicious cyberactivities. PurpCode trains a reasoning model in two stages: (i) Rule Learning, which explicitly teaches the model to reference cybersafety rules to generate vulnerability-free code and to avoid facilitating malicious cyberactivities; and (ii) Reinforcement Learning, which optimizes model safety and preserves model utility through diverse, multi-objective reward mechanisms. To empower the training pipelines with comprehensive cybersafety data, we conduct internal red-teaming to synthesize comprehensive and high-coverage prompts based on real-world tasks for inducing unsafe cyberactivities in the model. Based on PurpCode, we develop a reasoning-based coding model, namely PurpCode-32B, which demonstrates state-of-the-art cybersafety, outperforming various frontier models. Meanwhile, our alignment method decreases the model overrefusal rates in both general and cybersafety-specific scenarios, while preserving model utility in both code generation and common security knowledge.
- Abstract(参考訳): セキュアなコード生成と悪意のあるサイバー活動に対する防御のために、安全なコード推論モデルをトレーニングするための最初のトレーニング後レシピであるPurpCodeを紹介します。
PurpCodeは2段階の推論モデルを訓練する。
一 脆弱性のないコードを生成し、悪意のあるサイバー活動の円滑化を避けるために、サイバー安全規則を参照するよう明示的に指導する規則学習
二 モデル安全性を最適化し、多目的報酬機構を通じてモデル実用性を保全する強化学習。
包括的サイバー安全データによるトレーニングパイプラインの強化を目的として,モデル内の安全でないサイバーアクティビティを誘導する現実的なタスクに基づいて,包括的かつ高包括的なプロンプトを合成する内部リピートを実施している。
PurpCodeをベースとして、さまざまなフロンティアモデルを上回る最先端のサイバー安全性を示す推論ベースのコーディングモデルであるPurpCode-32Bを開発した。
一方、アライメント手法は、コード生成と共通セキュリティ知識の両方においてモデルユーティリティを保ちながら、一般的なシナリオとサイバーセーフティ固有のシナリオの両方におけるモデル過剰率を減少させる。
関連論文リスト
- Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
既存のメソッドは、インストラクションチューニングのための現実世界の脆弱性からセキュリティに焦点を当てたデータセットを収集する。
コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新しいプロアクティブなセキュリティアライメントアプローチであるProSecを提案する。
論文 参考訳(メタデータ) (2024-11-19T22:00:01Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - A Disguised Wolf Is More Harmful Than a Toothless Tiger: Adaptive Malicious Code Injection Backdoor Attack Leveraging User Behavior as Triggers [15.339528712960021]
まず,コード生成シナリオにおけるセキュリティ問題に焦点を当てたゲーム理論モデルを提案する。
このフレームワークは、攻撃者が悪意のあるコードモデルを広げてセキュリティ脅威を発生させる可能性のあるシナリオとパターンを概説する。
また、攻撃者がバックドアアタックを使用して悪意のあるコードインジェクションのタイミングを動的に調整できることも初めて指摘した。
論文 参考訳(メタデータ) (2024-08-19T18:18:04Z) - Model-agnostic clean-label backdoor mitigation in cybersecurity environments [6.857489153636145]
近年の研究では、セキュリティ分類タスク用に設計されたモデルにバックドアを注入する、一連の悪質な訓練時間攻撃が表面化している。
我々は、サイバーセキュリティ脅威モデルの洞察を活用して、これらのクリーンラベル中毒攻撃を効果的に軽減する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T03:25:40Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks [15.531860128240385]
本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。
命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。
我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
論文 参考訳(メタデータ) (2024-04-29T10:14:58Z) - Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。
CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文 参考訳(メタデータ) (2023-12-07T22:07:54Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。