論文の概要: DLAP: A Deep Learning Augmented Large Language Model Prompting Framework for Software Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2405.01202v1
- Date: Thu, 2 May 2024 11:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 16:54:18.363892
- Title: DLAP: A Deep Learning Augmented Large Language Model Prompting Framework for Software Vulnerability Detection
- Title(参考訳): DLAP: ソフトウェア脆弱性検出のためのディープラーニング強化大規模言語モデルプロンプトフレームワーク
- Authors: Yanjing Yang, Xin Zhou, Runfeng Mao, Jinwei Xu, Lanxin Yang, Yu Zhangm, Haifeng Shen, He Zhang,
- Abstract要約: 本稿では,ディープラーニング(DL)モデルとLLM(Large Language Models)モデルの両方を最大限に組み合わせて,例外的な脆弱性検出性能を実現するフレームワークである textbfDLAP について述べる。
実験の結果、DLAPは、ロールベースのプロンプト、補助情報プロンプト、チェーン・オブ・シントプロンプト、コンテキスト内学習プロンプトなど、最先端のプロンプトフレームワークより優れていることが確認された。
- 参考スコア(独自算出の注目度): 12.686480870065827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software vulnerability detection is generally supported by automated static analysis tools, which have recently been reinforced by deep learning (DL) models. However, despite the superior performance of DL-based approaches over rule-based ones in research, applying DL approaches to software vulnerability detection in practice remains a challenge due to the complex structure of source code, the black-box nature of DL, and the domain knowledge required to understand and validate the black-box results for addressing tasks after detection. Conventional DL models are trained by specific projects and, hence, excel in identifying vulnerabilities in these projects but not in others. These models with poor performance in vulnerability detection would impact the downstream tasks such as location and repair. More importantly, these models do not provide explanations for developers to comprehend detection results. In contrast, Large Language Models (LLMs) have made lots of progress in addressing these issues by leveraging prompting techniques. Unfortunately, their performance in identifying vulnerabilities is unsatisfactory. This paper contributes \textbf{\DLAP}, a \underline{\textbf{D}}eep \underline{\textbf{L}}earning \underline{\textbf{A}}ugmented LLMs \underline{\textbf{P}}rompting framework that combines the best of both DL models and LLMs to achieve exceptional vulnerability detection performance. Experimental evaluation results confirm that \DLAP outperforms state-of-the-art prompting frameworks, including role-based prompts, auxiliary information prompts, chain-of-thought prompts, and in-context learning prompts, as well as fine-turning on multiple metrics.
- Abstract(参考訳): ソフトウェア脆弱性検出は一般的に、ディープラーニング(DL)モデルによって強化された自動静的解析ツールによってサポートされている。
しかし,本研究におけるDLベースのアプローチは,ルールベースアプローチよりも優れているにもかかわらず,ソースコードの複雑な構造,DLのブラックボックスの性質,検出後のタスクに対処するためのブラックボックス結果の理解と検証に必要なドメイン知識などにより,DLアプローチを実際にソフトウェア脆弱性検出に適用することは依然として課題である。
従来のDLモデルは特定のプロジェクトによって訓練されるため、これらのプロジェクトの脆弱性を特定するのに優れているが、他のプロジェクトではそうではない。
脆弱性検出のパフォーマンスが低いこれらのモデルは、ロケーションやリカバリといった下流タスクに影響を及ぼす。
さらに重要なのは、これらのモデルが開発者が検出結果を理解するための説明を提供していないことだ。
対照的に、LLM(Large Language Models)は、プロンプト技術を活用してこれらの問題に対処する上で、多くの進歩を遂げています。
残念ながら、脆弱性を特定するパフォーマンスは不十分だ。
本稿では,DLモデルとLDMの両方の長所を組み合わせ,例外的な脆弱性検出性能を実現するためのフレームワークである 'textbf{\DLAP}, a \underline{\textbf{D}}eep \underline{\textbf{L}}earning \underline{\textbf{A}}ugmented LLMs \underline{\textbf{P}}rompting を提案する。
実験の結果, DLAPは役割ベースのプロンプト, 補助情報プロンプト, チェーン・オブ・コンテクストのプロンプト, テキスト内学習プロンプトなど, 最先端のプロンプトフレームワークよりも優れており, 複数の指標を微調整する。
関連論文リスト
- VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Towards Explainable Vulnerability Detection with Large Language Models [17.96542494363619]
ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。
大規模言語モデル(LLMs)の出現は、その高度な生成能力による変換ポテンシャルを導入している。
本稿では,脆弱性検出と説明という2つのタスクにLLMを専門化する自動フレームワークであるLLMVulExpを提案する。
論文 参考訳(メタデータ) (2024-06-14T04:01:25Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。
最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。
脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities [19.6975205650411]
さまざまな脆弱性パターンを表す量子化されたベクトルで構成される脆弱性コードブックが学習される。
推論の間、コードブックは、すべての学習パターンにマッチし、潜在的な脆弱性の存在を予測するために反復される。
提案手法は188,000以上のC/C++関数からなる実世界のデータセットに対して広範に評価された。
論文 参考訳(メタデータ) (2023-05-26T04:13:31Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。