論文の概要: Understanding the Effectiveness of Large Language Models in Detecting
Security Vulnerabilities
- arxiv url: http://arxiv.org/abs/2311.16169v1
- Date: Thu, 16 Nov 2023 13:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:05:31.447238
- Title: Understanding the Effectiveness of Large Language Models in Detecting
Security Vulnerabilities
- Title(参考訳): セキュリティ脆弱性検出における大規模言語モデルの有効性の理解
- Authors: Avishree Khare, Saikat Dutta, Ziyang Li, Alaia Solko-Breslin, Rajeev
Alur, Mayur Naik
- Abstract要約: LLM(Large Language Models)は、コード関連のタスクにおいて顕著なパフォーマンスを示す。
LLMは、既存の静的解析やディープラーニングに基づく脆弱性検出ツールよりもよく機能することを示す。
LLMは、しばしば、コード内の脆弱なデータフローを特定する、信頼できる説明を提供する。
- 参考スコア(独自算出の注目度): 13.591113697508117
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Security vulnerabilities in modern software are prevalent and harmful. While
automated vulnerability detection tools have made promising progress, their
scalability and applicability remain challenging. Recently, Large Language
Models (LLMs), such as GPT-4 and CodeLlama, have demonstrated remarkable
performance on code-related tasks. However, it is unknown whether such LLMs can
do complex reasoning over code. In this work, we explore whether pre-trained
LLMs can detect security vulnerabilities and address the limitations of
existing tools. We evaluate the effectiveness of pre-trained LLMs on a set of
five diverse security benchmarks spanning two languages, Java and C/C++, and
including code samples from synthetic and real-world projects. We evaluate the
effectiveness of LLMs in terms of their performance, explainability, and
robustness.
By designing a series of effective prompting strategies, we obtain the best
results on the synthetic datasets with GPT-4: F1 scores of 0.79 on OWASP, 0.86
on Juliet Java, and 0.89 on Juliet C/C++. Expectedly, the performance of LLMs
drops on the more challenging real-world datasets: CVEFixes Java and CVEFixes
C/C++, with GPT-4 reporting F1 scores of 0.48 and 0.62, respectively. We show
that LLMs can often perform better than existing static analysis and deep
learning-based vulnerability detection tools, especially for certain classes of
vulnerabilities. Moreover, LLMs also often provide reliable explanations,
identifying the vulnerable data flows in code. We find that fine-tuning smaller
LLMs can outperform the larger LLMs on synthetic datasets but provide limited
gains on real-world datasets. When subjected to adversarial attacks on code,
LLMs show mild degradation, with average accuracy reduction of up to 12.67%.
Finally, we share our insights and recommendations for future work on
leveraging LLMs for vulnerability detection.
- Abstract(参考訳): 現代のソフトウェアにおけるセキュリティの脆弱性は広く、有害である。
自動脆弱性検出ツールは有望な進歩を遂げているが、スケーラビリティと適用性は依然として難しい。
近年, GPT-4 や CodeLlama などの大規模言語モデル (LLM) がコード関連タスクにおいて顕著な性能を示した。
しかし、そのようなLSMがコードに対して複雑な推論ができるかどうかは不明である。
本研究では,LLMがセキュリティ上の脆弱性を検出し,既存のツールの限界に対処できるかどうかを検討する。
我々は,Java と C/C++ という2つの言語にまたがる5種類のセキュリティベンチマークに対して,事前学習した LLM の有効性を評価する。
その性能,説明可能性,堅牢性の観点から,LLMの有効性を評価する。
効果的なプロンプト戦略を設計することによって、gpt-4を用いた合成データセットの最良の結果を得る: f1スコアはowaspで0.79、juliet javaで0.86、juliet c/c++で0.89である。
CVEFixes JavaとCVEFixes C/C++、GPT-4のレポートF1スコアはそれぞれ0.48と0.62である。
llmは,既存の静的解析や深層学習に基づく脆弱性検出ツール,特に脆弱性のクラスよりもよく機能する。
さらに、LLMはコード内の脆弱なデータフローを識別し、信頼できる説明を提供することが多い。
微調整された小さなLLMは、合成データセットにおいてより大きなLLMよりも優れるが、実世界のデータセットでは限られた利得が得られる。
コードに対する敵攻撃を受けると、LLMはわずかに劣化し、平均精度は12.67%まで低下する。
最後に、脆弱性検出にllmを活用するための今後の取り組みについての洞察と推奨を共有します。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment [10.05719021957877]
テキストに付加された場合,LLMを騙して高い評価スコアを与える,短い普遍的なフレーズを検索する。
SummEval と TopicalChat の実験では、単純な結合攻撃に対して LLM-scoring と 2 対 LLM-comparativeアセスメントの両方が脆弱であることが示された。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing
LLMs' Vulnerability Reasoning [18.025174693883788]
大規模言語モデル (LLMs) は、脆弱性検出を含む多くの下流タスクに対して重要なポテンティルを証明している。
LLMの脆弱性検出に利用しようとする最近の試みは、LLMの脆弱性推論能力の詳細な理解が欠如しているため、予備的な初期化である。
LLM4Vulnという名前の統一評価フレームワークを提案し、LLMの脆弱性を他の機能と区別する。
論文 参考訳(メタデータ) (2024-01-29T14:32:27Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Flames: Benchmarking Value Alignment of Chinese Large Language Models [89.06570864917784]
本稿では,Flames という,最初の高度に敵対的なベンチマークを提案する。
2,251個の手作業によるプロンプト、18.7Kのモデル応答と微粒なアノテーション、特定のスコアラーで構成されている。
我々の枠組みは、公正、安全、合法、データ保護といった一般的な無害の原則と、調和のような特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - ZeroLeak: Using LLMs for Scalable and Cost Effective Side-Channel
Patching [6.556868623811133]
セキュリティクリティカルなソフトウェア、例えばOpenSSLには、リソースや専門家が不足しているため、パッチが残っていないサイドチャネルのリークが多数含まれている。
マイクロアーキテクチャのサイドチャネルリークを伴う脆弱性コードに対するパッチ生成において,LLM(Large Language Models)の使用について検討する。
論文 参考訳(メタデータ) (2023-08-24T20:04:36Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。