Fugu-MT 論文翻訳(概要): From Description to Score: Can LLMs Quantify Vulnerabilities?

論文の概要: From Description to Score: Can LLMs Quantify Vulnerabilities?

arxiv url: http://arxiv.org/abs/2512.06781v1
Date: Sun, 07 Dec 2025 10:47:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.524719
Title: From Description to Score: Can LLMs Quantify Vulnerabilities?
Title（参考訳）: 説明からスコアへ: LLMは脆弱性を定量化できるか?
Authors: Sima Jafarikhah, Daniel Thompson, Eva Deans, Hossein Siadati, Yi Liu,
Abstract要約: 本研究では,脆弱性評価プロセスを自動化する汎用大規模言語モデル(LLM)の可能性について検討する。分析の結果、LLMは同一のCVEの多くを誤分類する傾向にあり、アンサンブルベースのメタ分類器は性能を極端に向上させるだけであることがわかった。
参考スコア（独自算出の注目度）: 2.7554928070512843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Manual vulnerability scoring, such as assigning Common Vulnerability Scoring System (CVSS) scores, is a resource-intensive process that is often influenced by subjective interpretation. This study investigates the potential of general-purpose large language models (LLMs), namely ChatGPT, Llama, Grok, DeepSeek, and Gemini, to automate this process by analyzing over 31{,}000 recent Common Vulnerabilities and Exposures (CVE) entries. The results show that LLMs substantially outperform the baseline on certain metrics (e.g., \textit{Availability Impact}), while offering more modest gains on others (e.g., \textit{Attack Complexity}). Moreover, model performance varies across both LLM families and individual CVSS metrics, with ChatGPT-5 attaining the highest precision. Our analysis reveals that LLMs tend to misclassify many of the same CVEs, and ensemble-based meta-classifiers only marginally improve performance. Further examination shows that CVE descriptions often lack critical context or contain ambiguous phrasing, which contributes to systematic misclassifications. These findings underscore the importance of enhancing vulnerability descriptions and incorporating richer contextual details to support more reliable automated reasoning and alleviate the growing backlog of CVEs awaiting triage.
Abstract（参考訳）: CVSS(Common Vulnerability Scoring System)スコアを割り当てるなどの手動脆弱性スコアは、主観的解釈に影響されることが多いリソース集約的なプロセスである。本研究では,ChatGPT,Llama,Grok,DeepSeek,Geminiといった汎用大規模言語モデル(LLM)が,最近のCVE(Common Vulnerabilities and Exposures)の31{,}000以上の項目を解析して,このプロセスを自動化する可能性について検討する。結果は、LCMが特定のメトリクス(例えば、 \textit{Availability Impact})のベースラインを大幅に上回る一方で、他のメトリクス(例えば、 \textit{Attack Complexity})に対してより穏やかなゲインを提供することを示している。さらに、モデル性能はLLMファミリーと個々のCVSSメトリクスの両方で異なり、ChatGPT-5が最も精度が高い。分析の結果、LLMは同一のCVEの多くを誤分類する傾向にあり、アンサンブルベースのメタ分類器は性能を極端に向上させるだけであることがわかった。さらに、CVEの記述は、しばしば重要な文脈を欠いているか、曖昧な言い回しを含むことを示し、体系的な誤分類に寄与している。これらの知見は、より信頼性の高い自動推論をサポートし、トリアージを待っているCVEのバックログの増大を軽減するために、脆弱性記述の強化と、よりリッチなコンテキスト詳細の導入の重要性を浮き彫りにした。

関連論文リスト

Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文参考訳（メタデータ） (2025-09-16T03:48:22Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
Can LLMs Classify CVEs? Investigating LLMs Capabilities in Computing CVSS Vectors [15.43868945929965]
新たに報告された脆弱性に対するCVSSスコアの生成におけるLarge Language Models(LLMs)の有効性を評価する。以上の結果から,LCMはCVSS評価の自動化の可能性を実証する一方で,埋込法の方がより主観的成分の獲得に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-04-14T21:10:57Z)
Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。 Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文参考訳（メタデータ） (2025-03-22T23:59:17Z)
Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-13T02:51:17Z)
Forget What You Know about LLMs Evaluations -- LLMs are Like a Chameleon [12.13060272830352]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見える。これらの高いスコアは、真の言語理解よりもデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。
論文参考訳（メタデータ） (2025-02-11T10:43:36Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。