論文の概要: Security Code Review by LLMs: A Deep Dive into Responses
- arxiv url: http://arxiv.org/abs/2401.16310v1
- Date: Mon, 29 Jan 2024 17:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:05:46.869947
- Title: Security Code Review by LLMs: A Deep Dive into Responses
- Title(参考訳): LLMsによるセキュリティコードレビュー - 反応を深く掘り下げる
- Authors: Jiaxin Yu, Peng Liang, Yujia Fu, Amjed Tahir, Mojtaba Shahin, Chong
Wang, Yangxiao Cai
- Abstract要約: セキュリティコードレビューは、自動ツールと開発中のセキュリティ欠陥を検出する手作業を組み合わせることを目的としている。
本研究では,実世界のコードレビューのセキュリティ欠陥を含む549個のコードファイルに対して,最先端のLLM3つの検出性能を5つのプロンプトで比較した。
以上の結果から, LLMの応答は冗長性, 曖昧性, 不完全性に悩まされることが多く, その簡潔さ, 理解可能性, セキュリティ欠陥検出の遵守の必要性が浮き彫りにされている。
- 参考スコア(独自算出の注目度): 9.776589174988043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Security code review aims to combine automated tools and manual efforts to
detect security defects during development. The rapid development of Large
Language Models (LLMs) has shown promising potential in software development,
as well as opening up new possibilities in automated security code review. To
explore the challenges of applying LLMs in practical code review for security
defect detection, this study compared the detection performance of three
state-of-the-art LLMs (Gemini Pro, GPT-4, and GPT-3.5) under five prompts on
549 code files that contain security defects from real-world code reviews.
Through analyzing 82 responses generated by the best-performing LLM-prompt
combination based on 100 randomly selected code files, we extracted and
categorized quality problems present in these responses into 5 themes and 16
categories. Our results indicate that the responses produced by LLMs often
suffer from verbosity, vagueness, and incompleteness, highlighting the
necessity to enhance their conciseness, understandability, and compliance to
security defect detection. This work reveals the deficiencies of LLM-generated
responses in security code review and paves the way for future optimization of
LLMs towards this task.
- Abstract(参考訳): セキュリティコードレビューは、自動ツールと、開発中のセキュリティ欠陥を検出する手作業を組み合わせたものだ。
大規模言語モデル(LLM)の急速な開発は、ソフトウェア開発における有望な可能性を示し、自動セキュリティコードレビューの新たな可能性を開く。
セキュリティ欠陥検出のための実用的コードレビューにLLMを適用する際の課題を検討するため,実世界のコードレビューからセキュリティ欠陥を含む549個のコードファイルに対して,最先端の3つのLLM(Gemini Pro, GPT-4, GPT-3.5)の検出性能を比較した。
ランダムに選択された100個のコードファイルに基づいて,最良性能のLLM-promptの組み合わせによって生成される82の応答を解析し,これらの応答に存在する品質問題を5つのテーマと16のカテゴリに分類した。
以上の結果から, LLMの応答は冗長性, 曖昧性, 不完全性に悩まされることが多く, その簡潔さ, 理解可能性, セキュリティ欠陥検出の遵守の必要性が示唆された。
本研究は,セキュリティコードレビューにおけるLLM生成応答の欠陥を明らかにし,今後のLLMの最適化方法を明らかにする。
関連論文リスト
- CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - A Comprehensive Study of the Capabilities of Large Language Models for Vulnerability Detection [9.422811525274675]
大規模言語モデル(LLM)は、コード生成やその他のソフトウェアエンジニアリングタスクに大きな可能性を実証しています。
脆弱性検出は、ソフトウェアシステムのセキュリティ、完全性、信頼性を維持する上で非常に重要である。
最近の研究は、ジェネリックプロンプト技術を用いた脆弱性検出にLLMを適用しているが、このタスクの能力とそれらが犯すエラーの種類は未だ不明である。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - Exploring Safety Generalization Challenges of Large Language Models via Code [126.80573601180411]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの共通の安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - LLMs Cannot Reliably Identify and Reason About Security Vulnerabilities (Yet?): A Comprehensive Evaluation, Framework, and Benchmarks [17.522223535347905]
大規模な言語モデル(LLM)は、自動脆弱性修正に使用するために提案されているが、ベンチマークでは、セキュリティ関連のバグが一貫して欠如していることが示されている。
SecLLMHolmesは,LLMがセキュリティ関連のバグを確実に識別し,原因を判断できるかどうか,これまでで最も詳細な調査を行う,完全に自動化された評価フレームワークである。
論文 参考訳(メタデータ) (2023-12-19T20:19:43Z) - Can LLMs Patch Security Issues? [0.26107298043931204]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMはセキュリティ上の脆弱性や欠陥を含むコードを生成する。
そこで本稿では,Bandit からのフィードバックを受信するための LLM の利用について検討する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。