論文の概要: How Effective Are Neural Networks for Fixing Security Vulnerabilities
- arxiv url: http://arxiv.org/abs/2305.18607v2
- Date: Tue, 2 Apr 2024 00:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:41:51.151658
- Title: How Effective Are Neural Networks for Fixing Security Vulnerabilities
- Title(参考訳): ニューラルネットワークはセキュリティ脆弱性の修正にどの程度有効か
- Authors: Yi Wu, Nan Jiang, Hung Viet Pham, Thibaud Lutellier, Jordan Davis, Lin Tan, Petr Babkin, Sameena Shah,
- Abstract要約: 本稿では LLM と DL ベースの APR モデルの Java 脆弱性修復機能について検討し比較した。
結果として、より大きな脆弱性修復トレーニングデータを作成するなど、Javaの自動脆弱性修正を強化するイノベーションが求められている。
- 参考スコア(独自算出の注目度): 25.050519427592253
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Security vulnerability repair is a difficult task that is in dire need of automation. Two groups of techniques have shown promise: (1) large code language models (LLMs) that have been pre-trained on source code for tasks such as code completion, and (2) automated program repair (APR) techniques that use deep learning (DL) models to automatically fix software bugs. This paper is the first to study and compare Java vulnerability repair capabilities of LLMs and DL-based APR models. The contributions include that we (1) apply and evaluate five LLMs (Codex, CodeGen, CodeT5, PLBART and InCoder), four fine-tuned LLMs, and four DL-based APR techniques on two real-world Java vulnerability benchmarks (Vul4J and VJBench), (2) design code transformations to address the training and test data overlapping threat to Codex, (3) create a new Java vulnerability repair benchmark VJBench, and its transformed version VJBench-trans and (4) evaluate LLMs and APR techniques on the transformed vulnerabilities in VJBench-trans. Our findings include that (1) existing LLMs and APR models fix very few Java vulnerabilities. Codex fixes 10.2 (20.4%), the most number of vulnerabilities. (2) Fine-tuning with general APR data improves LLMs' vulnerability-fixing capabilities. (3) Our new VJBench reveals that LLMs and APR models fail to fix many Common Weakness Enumeration (CWE) types, such as CWE-325 Missing cryptographic step and CWE-444 HTTP request smuggling. (4) Codex still fixes 8.3 transformed vulnerabilities, outperforming all the other LLMs and APR models on transformed vulnerabilities. The results call for innovations to enhance automated Java vulnerability repair such as creating larger vulnerability repair training data, tuning LLMs with such data, and applying code simplification transformation to facilitate vulnerability repair.
- Abstract(参考訳): セキュリティ上の脆弱性の修復は、自動化の難しい作業です。
1)コード補完などのタスクのためにソースコードで事前訓練された大規模コード言語モデル(LLM)と、(2)ディープラーニング(DL)モデルを使用してソフトウェアバグを自動的に修正する自動プログラム修復(APR)技術である。
本稿では LLM と DL ベースの APR モデルの Java 脆弱性修復機能について検討し比較した。
コントリビューションには、(1) 5つのLM(Codex, CodeGen, CodeT5, PLBART, InCoder)、4つの微調整LDM、4つのDLベースのAPRテクニックを実世界のJava脆弱性ベンチマーク(Vul4J, VJBench)に適用し、(2) Codexにオーバーラップするトレーニングとテストデータに対処するための設計コード変換、(3)新しいJava脆弱性修復ベンチマークVJBenchの作成、(4)変換されたバージョンVJBench-transと(4)は、VJBench-transの変換された脆弱性に関するLLMとAPR技術の評価を含む。
その結果,(1)既存の LLM モデルと APR モデルは,Java の脆弱性をほとんど解決していないことがわかった。
Codexは最大の脆弱性である10.2 (20.4%)を修正している。
2) 一般的なAPRデータによる微調整により, LLMの脆弱性修正能力が向上する。
(3) 我々の新しいVJBenchは、LLMとAPRモデルが、CWE-325ミス暗号化ステップやCWE-444HTTPリクエストの密輸など、多くの共通弱列挙型(CWE)の修正に失敗したことを明らかにしている。
(4) Codexは8.3のトランスフォーメーションされた脆弱性をまだ修正し、トランスフォーメーションされた脆弱性に関する他のLLMやAPRモデルよりも優れている。
結果として、より大きな脆弱性修復トレーニングデータを作成し、そのようなデータでLLMをチューニングし、脆弱性修復を容易にするためのコードの単純化変換を適用するなど、Javaの自動脆弱性修正を強化するイノベーションが求められている。
関連論文リスト
- Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Automated Software Vulnerability Patching using Large Language Models [24.958856670970366]
我々は、事前訓練された大規模言語モデル(LLM)のパワーとメリットを活用して、自動脆弱性パッチを可能にする。
脆弱なコード動作を効果的に推論するために,LLMに適応的なプロンプトを導入する。
ゼロデイ脆弱性を含む実世界の脆弱性コードに対するLLMの評価は、既存のプロンプト法と最先端の非LLM技術の両方に優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-24T14:51:50Z) - How Well Do Large Language Models Serve as End-to-End Secure Code Producers? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。
4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。
修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文 参考訳(メタデータ) (2024-08-20T02:42:29Z) - h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。
我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。
合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。
本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文 参考訳(メタデータ) (2024-07-25T05:42:14Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。
各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。
GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文 参考訳(メタデータ) (2023-08-20T19:33:12Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。