論文の概要: LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward
- arxiv url: http://arxiv.org/abs/2401.03374v2
- Date: Thu, 22 Feb 2024 00:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:00:39.037270
- Title: LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward
- Title(参考訳): 強化学習とセマンティック・リワードを用いたLLMによるコード脆弱性修復
- Authors: Nafis Tanveer Islam, Joseph Khoury, Andrew Seong, Mohammad Bahrami
Karkevandi, Gonzalo De La Torre Parra, Elias Bou-Harb, Peyman Najafirad
- Abstract要約: 我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
- 参考スコア(独自算出の注目度): 3.729516018513228
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In software development, the predominant emphasis on functionality often
supersedes security concerns, a trend gaining momentum with AI-driven
automation tools like GitHub Copilot. These tools significantly improve
developers' efficiency in functional code development. Nevertheless, it remains
a notable concern that such tools are also responsible for creating insecure
code, predominantly because of pre-training on publicly available repositories
with vulnerable code. Moreover, developers are called the "weakest link in the
chain" since they have very minimal knowledge of code security. Although
existing solutions provide a reasonable solution to vulnerable code, they must
adequately describe and educate the developers on code security to ensure that
the security issues are not repeated. Therefore we introduce a multipurpose
code vulnerability analysis system \texttt{SecRepair}, powered by a large
language model, CodeGen2 assisting the developer in identifying and generating
fixed code along with a complete description of the vulnerability with a code
comment. Our innovative methodology uses a reinforcement learning paradigm to
generate code comments augmented by a semantic reward mechanism. Inspired by
how humans fix code issues, we propose an instruction-based dataset suitable
for vulnerability analysis with LLMs. We further identify zero-day and N-day
vulnerabilities in 6 Open Source IoT Operating Systems on GitHub. Our findings
underscore that incorporating reinforcement learning coupled with semantic
reward augments our model's performance, thereby fortifying its capacity to
address code vulnerabilities with improved efficacy.
- Abstract(参考訳): ソフトウェア開発では、機能重視がセキュリティ上の懸念を上回っており、github copilotのようなai駆動自動化ツールで勢いを増している。
これらのツールは、機能的コード開発における開発者の効率を大幅に改善します。
それにもかかわらず、そのようなツールが安全でないコードの作成にも責任を負うことには、依然として注目すべき懸念が残っている。
さらに、コードセキュリティに関する知識が極めて少ないため、開発者は"チェーン内の最も弱いリンク"と呼ばれている。
既存のソリューションは、脆弱なコードに対して合理的な解決策を提供するが、セキュリティ問題が繰り返されないように、適切な記述とコードセキュリティ教育を開発者に行わなければならない。
そこで本研究では,大規模言語モデルを用いた多目的コード脆弱性解析システム \texttt{secrepair} を導入することで,コードコメントによる脆弱性の完全な説明とともに,固定コードの識別と生成を支援する。
我々の革新的方法論は、強化学習パラダイムを用いて、意味的報酬機構によって拡張されたコードコメントを生成する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性をさらに特定します。
その結果,強化学習とセマンティック報酬を併用することで,モデルの性能が向上し,コード脆弱性に対処する能力が向上することがわかった。
関連論文リスト
- Exploring Safety Generalization Challenges of Large Language Models via Code [126.80573601180411]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
調査によると、CodeAttackは全モデルの80%以上の安全ガードレールを一貫してバイパスしている。
CodeAttackと自然言語の間の大きな分散ギャップは、安全性の一般化を弱める。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Causative Insights into Open Source Software Security using Large
Language Code Embeddings and Semantic Vulnerability Graph [3.623199159688412]
オープンソースソフトウェア(OSS)の脆弱性は、不正アクセス、データ漏洩、ネットワーク障害、プライバシー侵害を引き起こす可能性がある。
最近のディープラーニング技術は、ソースコードの脆弱性を特定し、ローカライズする上で大きな可能性を示しています。
本研究は,従来の方法に比べてコード修復能力が24%向上したことを示す。
論文 参考訳(メタデータ) (2024-01-13T10:33:22Z) - Assessing the Security of GitHub Copilot Generated Code -- A Targeted
Replication Study [11.644996472213611]
最近の研究は、GitHub CopilotやAmazon CodeWhispererといったAIによるコード生成ツールのセキュリティ問題を調査している。
本稿では、コパイロットのセキュリティの弱点を調査し、コパイロットが提案するコードにいくつかの弱点を発見したPearce et al.の研究を再現する。
我々の結果は、新しいバージョンのCopilotが改良されても、脆弱性のあるコード提案の割合が36.54%から27.25%に減少していることを示している。
論文 参考訳(メタデータ) (2023-11-18T22:12:59Z) - Can LLMs Patch Security Issues? [0.26107298043931204]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMはセキュリティ上の脆弱性や欠陥を含むコードを生成する。
そこで本稿では,Bandit からのフィードバックを受信するための LLM の利用について検討する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。