論文の概要: Can LLMs Classify CVEs? Investigating LLMs Capabilities in Computing CVSS Vectors
- arxiv url: http://arxiv.org/abs/2504.10713v1
- Date: Mon, 14 Apr 2025 21:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:05:24.387812
- Title: Can LLMs Classify CVEs? Investigating LLMs Capabilities in Computing CVSS Vectors
- Title(参考訳): LLMはCVEを分類できるか? CVSSベクトル計算におけるLLMの機能の検討
- Authors: Francesco Marchiori, Denis Donadel, Mauro Conti,
- Abstract要約: 新たに報告された脆弱性に対するCVSSスコアの生成におけるLarge Language Models(LLMs)の有効性を評価する。
以上の結果から,LCMはCVSS評価の自動化の可能性を実証する一方で,埋込法の方がより主観的成分の獲得に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 15.43868945929965
- License:
- Abstract: Common Vulnerability and Exposure (CVE) records are fundamental to cybersecurity, offering unique identifiers for publicly known software and system vulnerabilities. Each CVE is typically assigned a Common Vulnerability Scoring System (CVSS) score to support risk prioritization and remediation. However, score inconsistencies often arise due to subjective interpretations of certain metrics. As the number of new CVEs continues to grow rapidly, automation is increasingly necessary to ensure timely and consistent scoring. While prior studies have explored automated methods, the application of Large Language Models (LLMs), despite their recent popularity, remains relatively underexplored. In this work, we evaluate the effectiveness of LLMs in generating CVSS scores for newly reported vulnerabilities. We investigate various prompt engineering strategies to enhance their accuracy and compare LLM-generated scores against those from embedding-based models, which use vector representations classified via supervised learning. Our results show that while LLMs demonstrate potential in automating CVSS evaluation, embedding-based methods outperform them in scoring more subjective components, particularly confidentiality, integrity, and availability impacts. These findings underscore the complexity of CVSS scoring and suggest that combining LLMs with embedding-based methods could yield more reliable results across all scoring components.
- Abstract(参考訳): CVE(Common Vulnerability and Exposure)レコードはサイバーセキュリティの基本であり、既知のソフトウェアやシステムの脆弱性に対してユニークな識別子を提供する。
各CVEは一般的に、リスク優先順位付けと修復をサポートするために共通脆弱性スコアシステム(CVSS)スコアが割り当てられる。
しかし、スコアの不整合は特定のメトリクスの主観的な解釈によって生じることが多い。
新しいCVEの数が急速に増え続けているため、タイムリーで一貫したスコアを確保するためには、自動化がますます必要になる。
従来の研究では自動手法が検討されてきたが、近年の人気にもかかわらず、Large Language Models (LLMs) の応用はいまだにあまり研究されていない。
本研究では,新たに報告された脆弱性に対するCVSSスコアの生成におけるLCMの有効性を評価する。
本研究では,LLM生成したスコアを,教師付き学習によって分類されたベクトル表現を用いた埋め込み型モデルと比較する。
以上の結果から,LCMはCVSS評価の自動化の可能性を実証する一方で,特に機密性,完全性,可用性への影響など,より主観的成分の評価において,埋込法の方が優れていたことが示唆された。
これらの結果はCVSSスコアリングの複雑さを浮き彫りにし、LCMと埋め込み法を組み合わせることで、全てのスコアリングコンポーネントに対してより信頼性の高い結果が得られることを示唆している。
関連論文リスト
- On the Validity of Traditional Vulnerability Scoring Systems for Adversarial Attacks against LLMs [0.0]
本研究は,脆弱性スコアの決定における一般および特定指標の影響について検討した。
さまざまな研究論文から引用され、オンラインデータベースを通じて得られた攻撃は、複数の脆弱性メトリクスを使用して評価された。
論文 参考訳(メタデータ) (2024-12-28T09:08:37Z) - Evaluating and Improving the Robustness of Security Attack Detectors Generated by LLMs [6.936401700600395]
大規模言語モデル(LLM)は、セキュリティ要件を実装するアタック検出器などの関数を生成するために、ソフトウェア開発でますます使われている。
これは、LLMが既存の攻撃に関する知識を欠いていることと、生成されたコードが実際の使用シナリオで評価されていないことによる可能性が高い。
本稿では,LLMパイプラインにRAG(Retrieval Augmented Generation)とSelf-Rankingを統合した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-27T10:48:37Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SecScore: Enhancing the CVSS Threat Metric Group with Empirical Evidences [0.0]
最も広く使用されている脆弱性スコアリングシステム(CVSS)の1つは、エクスプロイトコードが出現する可能性の増大に対処していない。
本稿では,CVSS Threatメトリックグループを強化した,革新的な脆弱性重大度スコアであるSecScoreを提案する。
論文 参考訳(メタデータ) (2024-05-14T12:25:55Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。