Fugu-MT 論文翻訳(概要): Prompting the Priorities: A First Look at Evaluating LLMs for Vulnerability Triage and Prioritization

論文の概要: Prompting the Priorities: A First Look at Evaluating LLMs for Vulnerability Triage and Prioritization

arxiv url: http://arxiv.org/abs/2510.18508v1
Date: Tue, 21 Oct 2025 10:48:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:13.432765
Title: Prompting the Priorities: A First Look at Evaluating LLMs for Vulnerability Triage and Prioritization
Title（参考訳）: 優先順位の証明: 脆弱性トリアージと優先順位付けのためのLCMの評価
Authors: Osama Al Haddad, Muhammad Ikram, Ejaz Ahmed, Young Lee,
Abstract要約: セキュリティアナリストは、大規模で複雑な脆弱性バックログをトリアージする圧力が高まっている。半構造化および非構造化の脆弱性情報を解釈するために,12種類のプロンプト技術を用いて4つのモデルを評価する。我々は165,000以上のクエリを発行し、ワンショット、少数ショット、チェーンオブソートなどのプロンプトスタイルでパフォーマンスを評価する。
参考スコア（独自算出の注目度）: 0.8388262599725365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Security analysts face increasing pressure to triage large and complex vulnerability backlogs. Large Language Models (LLMs) offer a potential aid by automating parts of the interpretation process. We evaluate four models (ChatGPT, Claude, Gemini, and DeepSeek) across twelve prompting techniques to interpret semi-structured and unstructured vulnerability information. As a concrete use case, we test each model's ability to predict decision points in the Stakeholder-Specific Vulnerability Categorization (SSVC) framework: Exploitation, Automatable, Technical Impact, and Mission and Wellbeing. Using 384 real-world vulnerabilities from the VulZoo dataset, we issued more than 165,000 queries to assess performance under prompting styles including one-shot, few-shot, and chain-of-thought. We report F1 scores for each SSVC decision point and Cohen's kappa (weighted and unweighted) for the final SSVC decision outcomes. Gemini consistently ranked highest, leading on three of four decision points and yielding the most correct recommendations. Prompting with exemplars generally improved accuracy, although all models struggled on some decision points. Only DeepSeek achieved fair agreement under weighted metrics, and all models tended to over-predict risk. Overall, current LLMs do not replace expert judgment. However, specific LLM and prompt combinations show moderate effectiveness for targeted SSVC decisions. When applied with care, LLMs can support vulnerability prioritization workflows and help security teams respond more efficiently to emerging threats.
Abstract（参考訳）: セキュリティアナリストは、大規模で複雑な脆弱性バックログをトリアージする圧力が高まっている。大きな言語モデル(LLM)は、解釈プロセスの一部を自動化することで潜在的支援を提供する。半構造化および非構造化の脆弱性情報を解釈するために,12種類のプロンプト技術を用いて,ChatGPT,Claude,Gemini,DeepSeekの4つのモデルを評価する。具体的なユースケースとして、Stakeholder-Specific Vulnerability Categorization (SSVC)フレームワークにおいて、各モデルの意思決定ポイントを予測する能力(Exploitation, Automatable, Technical Impact, Mission and Wellbeing)をテストする。 VulZooデータセットから384の現実世界の脆弱性を使用して、165,000以上のクエリを発行し、ワンショット、少数ショット、チェーンオブ思想といったスタイルでパフォーマンスを評価しました。各SSVC判定点のF1スコアと最終SSVC判定結果のCohenのKappa(重み付き・無重み付き)を報告する。ジェミニは一貫して最高位にランクインし、4つの決定ポイントのうち3つを導き、最も正しい勧告を得た。模範のプロンプトは一般的に精度を向上したが、全てのモデルはいくつかの決定点で苦労した。 DeepSeekだけがメトリクスの重み付けの下で公正な合意を達成し、すべてのモデルはリスクを過度に予測する傾向にあった。全体として、現在のLLMは専門家の判断に取って代わるものではない。しかし、特定のLSMとプロンプトの組み合わせは、SSVCの決定に対して適度な効果を示す。注意を払って適用すると、LLMは脆弱性優先順位付けワークフローをサポートし、セキュリティチームが新たな脅威に対してより効率的に対応できるようにする。

関連論文リスト

Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文参考訳（メタデータ） (2025-09-03T15:48:33Z)
Think Broad, Act Narrow: CWE Identification with Multi-Agent Large Language Models [0.09208007322096533]
近年,脆弱性検出のための機械学習と大規模言語モデル (LLM) が注目されている。セキュリティの弱点(CWE)を特定するための新しいマルチエージェントLCM手法を提案する。 PrimeVulデータセットでは、研究対象の脆弱性関数の40.9%で適切なCWEを正しく識別する。
論文参考訳（メタデータ） (2025-08-02T17:57:46Z)
Smart-LLaMA-DPO: Reinforced Large Language Model for Explainable Smart Contract Vulnerability Detection [15.694744168599055]
既存の脆弱性検出方法は2つの大きな問題に直面している。嗜好学習には包括的カバレッジと高品質な説明が欠如している。大規模言語モデル(LLM)は、スマートコントラクトのセキュリティにおいて、特定の概念を正確に解釈するのに苦労することが多い。
論文参考訳（メタデータ） (2025-06-23T02:24:07Z)
VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。我々の結果は現在の状態を示している。
論文参考訳（メタデータ） (2025-05-26T01:20:44Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。特定のシナリオは、25倍の攻撃率を被る。 MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文参考訳（メタデータ） (2025-04-09T06:53:23Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。