論文の概要: Security Code Review by Large Language Models
- arxiv url: http://arxiv.org/abs/2401.16310v2
- Date: Sat, 8 Jun 2024 15:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 03:59:13.463558
- Title: Security Code Review by Large Language Models
- Title(参考訳): 大規模言語モデルによるセキュリティコードレビュー
- Authors: Jiaxin Yu, Peng Liang, Yujia Fu, Amjed Tahir, Mojtaba Shahin, Chong Wang, Yangxiao Cai,
- Abstract要約: セキュリティコードレビューにおいて、LLM(Large Language Models)の機能を理解するための最初の実証的研究を行う。
5つの異なるプロンプト下での6つのLLMの性能と,セキュリティ欠陥を検出し解析するための最先端の静的解析ツールを比較した。
優れたLLMを実現するために,我々は言語学的解析を行い,その応答における品質問題について検討した。
- 参考スコア(独自算出の注目度): 9.309745288471374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Security code review, as a time-consuming and labour-intensive process, typically requires integration with automated security defect detection tools to ensure code security. Despite the emergence of numerous security analysis tools, those tools face challenges in terms of their poor generalization, high false positive rates, and coarse detection granularity. A recent development with Large Language Models (LLMs) has made them a promising candidate to support security code review. To this end, we conducted the first empirical study to understand the capabilities of LLMs in security code review, delving into the performance, quality problems, and influential factors of LLMs to detect security defects in code reviews. Specifically, we compared the performance of 6 LLMs under five different prompts with the state-of-the-art static analysis tools to detect and analyze security defects. For the best-performing LLM, we conducted a linguistic analysis to explore quality problems in its responses, as well as a regression analysis to investigate the factors influencing its performance. The results are that: (1) existing pre-trained LLMs have limited capability in detecting security defects during code review but significantly outperform the state-of-the-art static analysis tools. (2) GPT-4 performs best among all LLMs when provided with a CWE list for reference. (3) GPT-4 makes few factual errors but frequently generates unnecessary content or responses that are not compliant with the task requirements given in the prompts. (4) GPT-4 is more adept at identifying security defects in code files with fewer tokens, containing functional logic and written by developers with less involvement in the project.
- Abstract(参考訳): セキュリティコードレビューは、時間を要する労働集約的なプロセスであり、コードのセキュリティを確保するために、自動化されたセキュリティ欠陥検出ツールとの統合を必要とするのが一般的である。
多くのセキュリティ分析ツールが登場したにも拘わらず、それらのツールは、一般化の貧弱さ、偽陽性率の高さ、粗い検出粒度の観点から、課題に直面している。
最近のLLM(Large Language Models)による開発は、セキュリティコードレビューをサポートするための有望な候補となっている。
この目的のために,セキュリティコードレビューにおけるLLMの能力を理解するための実証的研究を行い,コードレビューにおけるセキュリティ欠陥を検出するためのLLMの性能,品質問題,および影響要因について検討した。
具体的には,6個のLDMの性能を5つのプロンプトで比較し,最新の静的解析ツールを用いてセキュリティ欠陥を検出し解析した。
本研究は,LLMの性能向上のための言語学的解析を行い,その性能に影響を及ぼす要因の回帰分析を行った。
1) 既存のトレーニング済みのLLMは,コードレビュー中にセキュリティ欠陥を検出する能力に制限があるが,最先端の静的解析ツールよりも大幅に優れている。
2) GPT-4は、参照用のCWEリストが提供される場合、すべてのLLMの中で最もよく機能する。
(3) GPT-4は事実エラーが少ないが、プロンプトで与えられたタスク要求に従わない不必要な内容や応答を頻繁に生成する。
(4) GPT-4は、より少ないトークン、機能ロジックを含むコードファイルのセキュリティ欠陥を識別し、プロジェクトへの関与の少ない開発者によって記述される。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [85.51252685938564]
不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。
他のMLモデルと同様に、大きな言語モデル(LLM)は、クレームを作成することによって誤った予測をする傾向があり、あるいは与えられた入力に対して単に低品質の出力を生成する。
本稿では,最先端のUQベースラインの集合を実装した新しいベンチマークを提案し,新しいテクニックを制御可能かつ一貫した評価を行う環境を提供する。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。
目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。
LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文 参考訳(メタデータ) (2024-05-24T14:59:19Z) - A Comprehensive Study of the Capabilities of Large Language Models for Vulnerability Detection [9.422811525274675]
大規模言語モデル(LLM)は、コード生成やその他のソフトウェアエンジニアリングタスクに大きな可能性を実証しています。
脆弱性検出は、ソフトウェアシステムのセキュリティ、完全性、信頼性を維持する上で非常に重要である。
最近の研究は、ジェネリックプロンプト技術を用いた脆弱性検出にLLMを適用しているが、このタスクの能力とそれらが犯すエラーの種類は未だ不明である。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - LLMs Cannot Reliably Identify and Reason About Security Vulnerabilities (Yet?): A Comprehensive Evaluation, Framework, and Benchmarks [17.522223535347905]
大規模な言語モデル(LLM)は、自動脆弱性修正に使用するために提案されているが、ベンチマークでは、セキュリティ関連のバグが一貫して欠如していることが示されている。
SecLLMHolmesは,LLMがセキュリティ関連のバグを確実に識別し,原因を判断できるかどうか,これまでで最も詳細な調査を行う,完全に自動化された評価フレームワークである。
論文 参考訳(メタデータ) (2023-12-19T20:19:43Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
LLM(Large Language Models)は、コード関連のタスクにおいて顕著なパフォーマンスを示す。
トレーニング済みのLLMがセキュリティ上の脆弱性を検出し、既存のツールの限界に対処できるかどうかを評価する。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Security Defect Detection via Code Review: A Study of the OpenStack and
Qt Communities [7.2944322548786715]
セキュリティ欠陥は、コードレビューでは議論されていない。
レビューの半数以上が、開発者がセキュリティ欠陥を修正するための明確な修正戦略/ソリューションを提供しています。
開発者とレビュアーの相違は、セキュリティ欠陥を解決しない主な原因である。
論文 参考訳(メタデータ) (2023-07-05T14:30:41Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。