Fugu-MT 論文翻訳(概要): Streamlining Security Vulnerability Triage with Large Language Models

論文の概要: Streamlining Security Vulnerability Triage with Large Language Models

arxiv url: http://arxiv.org/abs/2501.18908v1
Date: Fri, 31 Jan 2025 06:02:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 22:46:12.922096
Title: Streamlining Security Vulnerability Triage with Large Language Models
Title（参考訳）: 大規模言語モデルによるセキュリティ脆弱性の合理化
Authors: Mohammad Jalili Torkamani, Joey NG, Nikita Mehrotra, Mahinthan Chandramohan, Padmanabhan Krishnan, Rahul Purandare,
Abstract要約: セキュリティバグの共通弱さ(CWE)の同定を自動化し,その重症度を評価する新しいアプローチであるCASEYを提案する。ケーシーはCWE識別精度68%、重度識別精度73.6%、組み合わせ精度51.2%を達成した。
参考スコア（独自算出の注目度）: 0.786186571320448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bug triaging for security vulnerabilities is a critical part of software maintenance, ensuring that the most pressing vulnerabilities are addressed promptly to safeguard system integrity and user data. However, the process is resource-intensive and comes with challenges, including classifying software vulnerabilities, assessing their severity, and managing a high volume of bug reports. In this paper, we present CASEY, a novel approach that leverages Large Language Models (in our case, the GPT model) that automates the identification of Common Weakness Enumerations (CWEs) of security bugs and assesses their severity. CASEY employs prompt engineering techniques and incorporates contextual information at varying levels of granularity to assist in the bug triaging process. We evaluated CASEY using an augmented version of the National Vulnerability Database (NVD), employing quantitative and qualitative metrics to measure its performance across CWE identification, severity assessment, and their combined analysis. CASEY achieved a CWE identification accuracy of 68%, a severity identification accuracy of 73.6%, and a combined accuracy of 51.2% for identifying both. These results demonstrate the potential of LLMs in identifying CWEs and severity levels, streamlining software vulnerability management, and improving the efficiency of security vulnerability triaging workflows.
Abstract（参考訳）: セキュリティ上の脆弱性に対するバグのトリアージは、ソフトウェアメンテナンスの重要な部分であり、システムの完全性とユーザデータの保護のために、最もプレッシャーのかかる脆弱性がすぐに対処されることを保証する。しかし、このプロセスはリソース集約的であり、ソフトウェアの脆弱性の分類、深刻度の評価、大量のバグレポートの管理といった課題が伴う。本稿では,大規模言語モデル(GPTモデル)を利用したセキュリティバグの共通弱度列挙(CWE)の自動識別と,その重症度を評価する新しいアプローチであるCASEYを提案する。 CaseYは、迅速なエンジニアリング技術を採用し、バグのトリアージプロセスを支援するために、さまざまなレベルの粒度でコンテキスト情報を組み込む。全国脆弱性データベース(National Vulnerability Database, NVD)の強化版を用いて, CWE識別, 重度評価, およびそれらの組み合わせ分析による評価を行った。 CaseYはCWE識別精度68%、重度識別精度73.6%、合計精度51.2%を達成した。これらの結果は、CWEと重大度レベルの識別、ソフトウェア脆弱性管理の合理化、セキュリティ脆弱性のトリアージワークフローの効率化におけるLLMの可能性を示している。

関連論文リスト

FORGE: An LLM-driven Framework for Large-Scale Smart Contract Vulnerability Dataset Construction [34.20628333535654]
FORGEはスマートコントラクト脆弱性データセットを構築するための最初の自動化アプローチである。 81,390のソリッドリティファイルと27,497の脆弱性を296のCWEカテゴリに分類したデータセットを生成した。その結果、現在の検出能力の重大な制限が明らかになった。
論文参考訳（メタデータ） (2025-06-23T16:03:16Z)
CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。 REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文参考訳（メタデータ） (2025-03-20T07:54:35Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
Beyond the Surface: An NLP-based Methodology to Automatically Estimate CVE Relevance for CAPEC Attack Patterns [42.63501759921809]
本稿では,自然言語処理(NLP)を利用して,共通脆弱性・暴露(CAPEC)脆弱性と共通攻撃パターン・分類(CAPEC)攻撃パターンを関連付ける手法を提案する。実験による評価は,最先端モデルと比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-01-13T08:39:52Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models [12.465060623389151]
本研究では,Large Language Models(LLM)の脆弱性検出機能を評価するために,新しいベンチマークであるVulDetectBenchを紹介する。このベンチマークは、LLMの脆弱性を特定し、分類し、発見する能力を、難易度を高める5つのタスクを通じて総合的に評価している。本ベンチマークでは,脆弱性検出の特定のタスクにおいて,様々なLLMの能力評価を効果的に行うとともに,コードセキュリティの重要領域における今後の研究と改善の基盤となる。
論文参考訳（メタデータ） (2024-06-11T13:42:57Z)
A Relevance Model for Threat-Centric Ranking of Cybersecurity Vulnerabilities [0.29998889086656577]
脆弱性の追跡と更新の絶え間ないプロセスは、サイバーセキュリティの専門家にとって最大の関心事だ。我々は、MITRE ATT&CKから派生した敵対的基準を用いた脅威の軽減に特化して、脆弱性管理のためのフレームワークを提供する。我々の結果は、サイバー脅威のアクターが標的にし、悪用される可能性のある脆弱性の特定に向けた平均71.5%から91.3%の改善を示している。
論文参考訳（メタデータ） (2024-06-09T23:29:12Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Profile of Vulnerability Remediations in Dependencies Using Graph Analysis [40.35284812745255]
本研究では,グラフ解析手法と改良型グラフ注意畳み込みニューラルネットワーク(GAT)モデルを提案する。制御フローグラフを分析して、脆弱性の修正を目的とした依存性のアップグレードから発生するアプリケーションの変更をプロファイルします。結果は、コード脆弱性のリレーショナルダイナミクスに関する微妙な洞察を提供する上で、強化されたGATモデルの有効性を示す。
論文参考訳（メタデータ） (2024-03-08T02:01:47Z)
Unveiling Hidden Links Between Unseen Security Entities [3.7138962865789353]
VulnScopperは、知識グラフ(KG)と自然言語処理(NLP)を組み合わせたマルチモーダル表現学習を利用した革新的なアプローチである。我々は、National Vulnerability Database(NVD)とRed Hat CVEデータベースの2つの主要なセキュリティデータセットでVulnScopperを評価した。 VulnScopperは既存の手法よりも優れており、CVEをCWE(Common Vulnerabilities and Exposures)、CPE(Common Platform Languageions)にリンクする際の78%のHits@10精度を実現している。
論文参考訳（メタデータ） (2024-03-04T13:14:39Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)
REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文参考訳（メタデータ） (2023-09-15T02:50:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。