論文の概要: Large Language Model as Synthesizer: Fusing Diverse Inputs for Better
Automatic Vulnerability Repair
- arxiv url: http://arxiv.org/abs/2401.15459v1
- Date: Sat, 27 Jan 2024 16:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:14:14.078241
- Title: Large Language Model as Synthesizer: Fusing Diverse Inputs for Better
Automatic Vulnerability Repair
- Title(参考訳): 合成器としての大規模言語モデル:自動脆弱性修復のための拡散入力
- Authors: Xin Zhou, Kisub Kim, Bowen Xu, DongGyun Han, David Lo
- Abstract要約: VulMasterはTransformerベースのニューラルネットワークモデルで、脆弱性修復の生成に優れています。
VulMasterを,5,800の脆弱性関数を持つ1,754のプロジェクトからなる実世界のC/C++脆弱性修復データセットで評価した。
- 参考スコア(独自算出の注目度): 14.920535179015006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advances of deep learning (DL) have paved the way for automatic software
vulnerability repair approaches, which effectively learn the mapping from the
vulnerable code to the fixed code. Nevertheless, existing DL-based
vulnerability repair methods face notable limitations: 1) they struggle to
handle lengthy vulnerable code, 2) they treat code as natural language texts,
neglecting its inherent structure, and 3) they do not tap into the valuable
expert knowledge present in the expert system. To address this, we propose
VulMaster, a Transformer-based neural network model that excels at generating
vulnerability repairs by comprehensively understanding the entire vulnerable
code, irrespective of its length. This model also integrates diverse
information, encompassing vulnerable code structures and expert knowledge from
the CWE system. We evaluated VulMaster on a real-world C/C++ vulnerability
repair dataset comprising 1,754 projects with 5,800 vulnerable functions. The
experimental results demonstrated that VulMaster exhibits substantial
improvements compared to the learning-based state-of-the-art vulnerability
repair approach. Specifically, VulMaster improves the EM, BLEU, and CodeBLEU
scores from 10.2\% to 20.0\%, 21.3\% to 29.3\%, and 32.5\% to 40.9\%,
respectively.
- Abstract(参考訳): ディープラーニング(dl)の進歩は、脆弱なコードから固定されたコードへのマッピングを効果的に学習する自動ソフトウェア脆弱性修復アプローチへの道を開いた。
それでも、既存のdlベースの脆弱性修復メソッドには、注目すべき制限がある。
1) 長い脆弱性のあるコードを扱うのに苦労する。
2)コードを自然言語テキストとして扱い、その固有の構造を無視し、
3) 専門家システムに存在する貴重な専門家の知識を活用しない。
これに対処するために,vulmasterを提案する。vulmasterは,その長さに関係なく,脆弱なコード全体を包括的に理解することにより,脆弱性の修復に優れた,トランスフォーマーベースのニューラルネットワークモデルである。
このモデルはまた、脆弱性のあるコード構造とCWEシステムからのエキスパート知識を含む多様な情報を統合する。
VulMasterを実世界のC/C++脆弱性修復データセットで評価した。
実験の結果,vulmasterは,学習に基づく脆弱性修復アプローチに比べて大幅に改善が見られた。
具体的には、em、bleu、codebleuのスコアを10.2\%から20.0\%、21.3\%から29.3\%、そして32.5\%から40.9\%に改善する。
関連論文リスト
- Code Vulnerability Repair with Large Language Model using Context-Aware Prompt Tuning [5.1071146597039245]
大規模言語モデル(LLM)は、脆弱なコードの検出と修復において重大な課題を示している。
本研究では、GitHub CopilotをLLMとして使用し、バッファオーバーフロー脆弱性に焦点を当てる。
実験の結果,バッファオーバーフローの脆弱性に対処する際のCopilotの能力には,76%の脆弱性検出率と15%の脆弱性修正率の差が認められた。
論文 参考訳(メタデータ) (2024-09-27T02:25:29Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Unintentional Security Flaws in Code: Automated Defense via Root Cause Analysis [2.899501205987888]
我々はT5-RCGCNと呼ばれる自動脆弱性根本原因(RC)ツールキットを開発した。
T5言語モデルの埋め込みと、脆弱性分類とローカライゼーションのためのグラフ畳み込みネットワーク(GCN)を組み合わせる。
3つのデータセットで56人のジュニア開発者を対象に、T5-RCGCNをテストしました。
論文 参考訳(メタデータ) (2024-08-30T18:26:59Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - Camouflage is all you need: Evaluating and Enhancing Language Model
Robustness Against Camouflage Adversarial Attacks [53.87300498478744]
自然言語処理(NLP)における敵攻撃の意義
本研究は、脆弱性評価とレジリエンス向上という2つの異なる段階において、この課題を体系的に探求する。
結果として、パフォーマンスとロバスト性の間のトレードオフが示唆され、いくつかのモデルは、ロバスト性を確保しながら、同様のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-02-15T10:58:22Z) - LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文 参考訳(メタデータ) (2024-01-07T02:46:39Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - How Effective Are Neural Networks for Fixing Security Vulnerabilities [25.050519427592253]
本稿では LLM と DL ベースの APR モデルの Java 脆弱性修復機能について検討し比較した。
結果として、より大きな脆弱性修復トレーニングデータを作成するなど、Javaの自動脆弱性修正を強化するイノベーションが求められている。
論文 参考訳(メタデータ) (2023-05-29T20:50:27Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - ESCORT: Ethereum Smart COntRacTs Vulnerability Detection using Deep
Neural Network and Transfer Learning [80.85273827468063]
既存の機械学習ベースの脆弱性検出方法は制限され、スマートコントラクトが脆弱かどうかのみ検査される。
スマートコントラクトのための初のDeep Neural Network(DNN)ベースの脆弱性検出フレームワークであるESCORTを提案する。
ESCORTは6種類の脆弱性に対して平均95%のF1スコアを達成し,検出時間は契約あたり0.02秒であることを示す。
論文 参考訳(メタデータ) (2021-03-23T15:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。