論文の概要: Streamlining Security Vulnerability Triage with Large Language Models
- arxiv url: http://arxiv.org/abs/2501.18908v1
- Date: Fri, 31 Jan 2025 06:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:59.763910
- Title: Streamlining Security Vulnerability Triage with Large Language Models
- Title(参考訳): 大規模言語モデルによるセキュリティ脆弱性の合理化
- Authors: Mohammad Jalili Torkamani, Joey NG, Nikita Mehrotra, Mahinthan Chandramohan, Padmanabhan Krishnan, Rahul Purandare,
- Abstract要約: セキュリティバグの共通弱さ(CWE)の同定を自動化し,その重症度を評価する新しいアプローチであるCASEYを提案する。
ケーシーはCWE識別精度68%、重度識別精度73.6%、組み合わせ精度51.2%を達成した。
- 参考スコア(独自算出の注目度): 0.786186571320448
- License:
- Abstract: Bug triaging for security vulnerabilities is a critical part of software maintenance, ensuring that the most pressing vulnerabilities are addressed promptly to safeguard system integrity and user data. However, the process is resource-intensive and comes with challenges, including classifying software vulnerabilities, assessing their severity, and managing a high volume of bug reports. In this paper, we present CASEY, a novel approach that leverages Large Language Models (in our case, the GPT model) that automates the identification of Common Weakness Enumerations (CWEs) of security bugs and assesses their severity. CASEY employs prompt engineering techniques and incorporates contextual information at varying levels of granularity to assist in the bug triaging process. We evaluated CASEY using an augmented version of the National Vulnerability Database (NVD), employing quantitative and qualitative metrics to measure its performance across CWE identification, severity assessment, and their combined analysis. CASEY achieved a CWE identification accuracy of 68%, a severity identification accuracy of 73.6%, and a combined accuracy of 51.2% for identifying both. These results demonstrate the potential of LLMs in identifying CWEs and severity levels, streamlining software vulnerability management, and improving the efficiency of security vulnerability triaging workflows.
- Abstract(参考訳): セキュリティ上の脆弱性に対するバグのトリアージは、ソフトウェアメンテナンスの重要な部分であり、システムの完全性とユーザデータの保護のために、最もプレッシャーのかかる脆弱性がすぐに対処されることを保証する。
しかし、このプロセスはリソース集約的であり、ソフトウェアの脆弱性の分類、深刻度の評価、大量のバグレポートの管理といった課題が伴う。
本稿では,大規模言語モデル(GPTモデル)を利用したセキュリティバグの共通弱度列挙(CWE)の自動識別と,その重症度を評価する新しいアプローチであるCASEYを提案する。
CaseYは、迅速なエンジニアリング技術を採用し、バグのトリアージプロセスを支援するために、さまざまなレベルの粒度でコンテキスト情報を組み込む。
全国脆弱性データベース(National Vulnerability Database, NVD)の強化版を用いて, CWE識別, 重度評価, およびそれらの組み合わせ分析による評価を行った。
CaseYはCWE識別精度68%、重度識別精度73.6%、合計精度51.2%を達成した。
これらの結果は、CWEと重大度レベルの識別、ソフトウェア脆弱性管理の合理化、セキュリティ脆弱性のトリアージワークフローの効率化におけるLLMの可能性を示している。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models [12.465060623389151]
本研究では,Large Language Models(LLM)の脆弱性検出機能を評価するために,新しいベンチマークであるVulDetectBenchを紹介する。
このベンチマークは、LLMの脆弱性を特定し、分類し、発見する能力を、難易度を高める5つのタスクを通じて総合的に評価している。
本ベンチマークでは,脆弱性検出の特定のタスクにおいて,様々なLLMの能力評価を効果的に行うとともに,コードセキュリティの重要領域における今後の研究と改善の基盤となる。
論文 参考訳(メタデータ) (2024-06-11T13:42:57Z) - A Relevance Model for Threat-Centric Ranking of Cybersecurity Vulnerabilities [0.29998889086656577]
脆弱性の追跡と更新の絶え間ないプロセスは、サイバーセキュリティの専門家にとって最大の関心事だ。
我々は、MITRE ATT&CKから派生した敵対的基準を用いた脅威の軽減に特化して、脆弱性管理のためのフレームワークを提供する。
我々の結果は、サイバー脅威のアクターが標的にし、悪用される可能性のある脆弱性の特定に向けた平均71.5%から91.3%の改善を示している。
論文 参考訳(メタデータ) (2024-06-09T23:29:12Z) - Unveiling Hidden Links Between Unseen Security Entities [3.7138962865789353]
VulnScopperは、知識グラフ(KG)と自然言語処理(NLP)を組み合わせたマルチモーダル表現学習を利用した革新的なアプローチである。
我々は、National Vulnerability Database(NVD)とRed Hat CVEデータベースの2つの主要なセキュリティデータセットでVulnScopperを評価した。
VulnScopperは既存の手法よりも優れており、CVEをCWE(Common Vulnerabilities and Exposures)、CPE(Common Platform Languageions)にリンクする際の78%のHits@10精度を実現している。
論文 参考訳(メタデータ) (2024-03-04T13:14:39Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。
脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。
大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T02:50:08Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。