論文の概要: Can Large Language Models Find And Fix Vulnerable Software?
- arxiv url: http://arxiv.org/abs/2308.10345v1
- Date: Sun, 20 Aug 2023 19:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 15:59:50.254343
- Title: Can Large Language Models Find And Fix Vulnerable Software?
- Title(参考訳): 大きな言語モデルは脆弱なソフトウェアを見つけて修正できるのか?
- Authors: David Noever
- Abstract要約: GPT-4は、その脆弱性の約4倍の脆弱性を同定した。
各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。
GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we evaluated the capability of Large Language Models (LLMs),
particularly OpenAI's GPT-4, in detecting software vulnerabilities, comparing
their performance against traditional static code analyzers like Snyk and
Fortify. Our analysis covered numerous repositories, including those from NASA
and the Department of Defense. GPT-4 identified approximately four times the
vulnerabilities than its counterparts. Furthermore, it provided viable fixes
for each vulnerability, demonstrating a low rate of false positives. Our tests
encompassed 129 code samples across eight programming languages, revealing the
highest vulnerabilities in PHP and JavaScript. GPT-4's code corrections led to
a 90% reduction in vulnerabilities, requiring only an 11% increase in code
lines. A critical insight was LLMs' ability to self-audit, suggesting fixes for
their identified vulnerabilities and underscoring their precision. Future
research should explore system-level vulnerabilities and integrate multiple
static code analyzers for a holistic perspective on LLMs' potential.
- Abstract(参考訳): 本研究では,Large Language Models(LLMs),特にOpenAIのGPT-4によるソフトウェア脆弱性の検出能力を評価し,SnykやFortifyといった従来の静的コードアナライザと比較した。
私たちの分析では、NASAや国防総省など、数多くのリポジトリをカバーしています。
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。
さらに、脆弱性ごとに実行可能な修正を提供し、偽陽性率を低く示す。
テストでは8つのプログラミング言語にまたがる129のコードサンプルをカバーし、PHPとJavaScriptの最大の脆弱性を明らかにしました。
GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
重要な洞察は、llmsの自己監査能力であり、特定された脆弱性に対する修正の提案と正確さの欠如であった。
今後の研究は、システムレベルの脆弱性を調査し、複数の静的コードアナライザを統合することで、LLMのポテンシャルを概観する。
関連論文リスト
- Large Language Models for Secure Code Assessment: A Multi-Language Empirical Study [1.9116784879310031]
GPT-4oは,数ショット設定を用いて,最も高い脆弱性検出とCWE分類のスコアを達成できることを示す。
我々は、VSCodeと統合されたCODEGUARDIANと呼ばれるライブラリを開発し、開発者はLLM支援リアルタイム脆弱性分析を行うことができる。
論文 参考訳(メタデータ) (2024-08-12T18:10:11Z) - Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。
実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。
この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文 参考訳(メタデータ) (2024-07-23T17:50:45Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - LLM-Assisted Static Analysis for Detecting Security Vulnerabilities [14.188864624736938]
大規模な言語モデル(LLM)は印象的なコード生成機能を示しているが、そのような脆弱性を検出するためにコードに対して複雑な推論を行うことはできない。
我々は,LLMと静的解析を体系的に組み合わせ,セキュリティ脆弱性検出のための全体リポジトリ推論を行うニューロシンボリックアプローチであるIRISを提案する。
論文 参考訳(メタデータ) (2024-05-27T14:53:35Z) - A Comprehensive Study of the Capabilities of Large Language Models for Vulnerability Detection [9.422811525274675]
大規模言語モデル(LLM)は、コード生成やその他のソフトウェアエンジニアリングタスクに大きな可能性を実証しています。
脆弱性検出は、ソフトウェアシステムのセキュリティ、完全性、信頼性を維持する上で非常に重要である。
最近の研究は、ジェネリックプロンプト技術を用いた脆弱性検出にLLMを適用しているが、このタスクの能力とそれらが犯すエラーの種類は未だ不明である。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning [20.463200377413255]
大規模言語モデル(LLM)は、脆弱性検出を含む様々なタスクにおいて大きな可能性を証明している。
本稿では,LLMの脆弱性推論を,脆弱性知識の採用など他の機能から分離することを目的とする。
我々は,SolidityとJavaにおける97の地層破壊脆弱性と97の非脆弱性ケースを用いて実験を行った。
論文 参考訳(メタデータ) (2024-01-29T14:32:27Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。