Fugu-MT 論文翻訳(概要): VulZoo: A Comprehensive Vulnerability Intelligence Dataset

論文の概要: VulZoo: A Comprehensive Vulnerability Intelligence Dataset

arxiv url: http://arxiv.org/abs/2406.16347v2
Date: Tue, 24 Sep 2024 00:54:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 01:10:29.032180
Title: VulZoo: A Comprehensive Vulnerability Intelligence Dataset
Title（参考訳）: VulZoo: 総合的な脆弱性インテリジェンスデータセット
Authors: Bonan Ruan, Jiahao Liu, Weibo Zhao, Zhenkai Liang,
Abstract要約: VulZooは17の人気の脆弱性情報ソースをカバーする、包括的な脆弱性インテリジェンスデータセットである。 VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
参考スコア（独自算出の注目度）: 12.229092589037808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software vulnerabilities pose critical security and risk concerns for many software systems. Many techniques have been proposed to effectively assess and prioritize these vulnerabilities before they cause serious consequences. To evaluate their performance, these solutions often craft their own experimental datasets from limited information sources, such as MITRE CVE and NVD, lacking a global overview of broad vulnerability intelligence. The repetitive data preparation process further complicates the verification and comparison of new solutions. To resolve this issue, in this paper, we propose VulZoo, a comprehensive vulnerability intelligence dataset that covers 17 popular vulnerability information sources. We also construct connections among these sources, enabling more straightforward configuration and adaptation for different vulnerability assessment tasks (e.g., vulnerability type prediction). Additionally, VulZoo provides utility scripts for automatic data synchronization and cleaning, relationship mining, and statistics generation. We make VulZoo publicly available and maintain it with incremental updates to facilitate future research. We believe that VulZoo serves as a valuable input to vulnerability assessment and prioritization studies. The dataset with utility scripts is available at https://github.com/NUS-Curiosity/VulZoo.
Abstract（参考訳）: ソフトウェア脆弱性は多くのソフトウェアシステムに対して重大なセキュリティとリスクの懸念を引き起こす。深刻な結果をもたらす前に、これらの脆弱性を効果的に評価し、優先順位付けするための多くの技術が提案されている。それらの性能を評価するために、これらのソリューションはMITRE CVEやNVDのような限られた情報ソースから独自の実験データセットを作成する。反復データ作成プロセスは、新たなソリューションの検証と比較をさらに複雑化する。この問題を解決するために,本稿では,17の脆弱性情報ソースをカバーする包括的脆弱性インテリジェンスデータセットであるVulZooを提案する。また、これらのソース間の接続を構築し、さまざまな脆弱性評価タスク(例えば、脆弱性タイプ予測)に対して、より簡単な設定と適応を可能にします。さらに、VulZooは自動データ同期とクリーニング、関係マイニング、統計生成のためのユーティリティスクリプトを提供する。 VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。 VulZooは脆弱性評価や優先順位付け研究に有用なインプットであると考えています。ユーティリティスクリプト付きのデータセットはhttps://github.com/NUS-Curiosity/VulZoo.comで公開されている。

関連論文リスト

VulnLLM-R: Specialized Reasoning LLM with Agent Scaffold for Vulnerability Detection [45.69684471143409]
VulnLLM-R は脆弱性検出のための LLM を最優先の推論である。私たちは70億のパラメータを持つ推論モデルをトレーニングします。 VulnLLM-R は SOTA 静的解析ツールよりも有効性と効率が優れていることを示す。
論文参考訳（メタデータ） (2025-12-08T13:06:23Z)
Automated Vulnerability Validation and Verification: A Large Language Model Approach [7.482522010482827]
本稿では、生成AI、特に大規模言語モデル(LLM)を利用したエンドツーエンド多段階パイプラインを提案する。本手法は,国立脆弱性データベース(National Vulnerability Database)のCVE開示情報から抽出する。これは、Retrieval-Augmented Generation (RAG)を使用して、外部の公開知識(例えば、脅威アドバイザリ、コードスニペット)で拡張する。パイプラインは生成されたアーティファクトを反復的に洗練し、テストケースでのアタック成功を検証し、複雑なマルチコンテナセットアップをサポートする。
論文参考訳（メタデータ） (2025-09-28T19:16:12Z)
VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文参考訳（メタデータ） (2025-09-03T14:06:10Z)
CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
Improving Data Curation of Software Vulnerability Patches through Uncertainty Quantification [6.916509590637601]
本稿では、不確実性定量化(UQ)を用いて、公開可能なソフトウェア脆弱性パッチのデータセットをキュレートする手法を提案する。 Model EnsembleとHerescedasticモデルは、脆弱性パッチデータセットのベストチョイスです。
論文参考訳（メタデータ） (2024-11-18T15:37:28Z)
RealVul: Can We Detect Vulnerabilities in Web Applications with LLM? [4.467475584754677]
本稿では,PHP 脆弱性検出用に設計された最初の LLM ベースのフレームワークである RealVul を紹介する。コードの合理化と不要なセマンティック情報を排除しながら、潜在的な脆弱性トリガを分離できます。また、データ合成法の改善により、PHPの脆弱性サンプルが不足している問題にも対処する。
論文参考訳（メタデータ） (2024-10-10T03:16:34Z)
The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文参考訳（メタデータ） (2024-09-10T10:12:37Z)
KGV: Integrating Large Language Models with Knowledge Graphs for Cyber Threat Intelligence Credibility Assessment [38.312774244521]
本稿では,CTI(Cyber Threat Intelligence)品質評価フレームワークの知識グラフに基づく検証手法を提案する。提案手法では,検証対象のOSCTIキークレームを自動的に抽出するLarge Language Models (LLM)を導入している。研究分野のギャップを埋めるために、異種情報源からの脅威情報評価のための最初のデータセットを作成し、公開しました。
論文参考訳（メタデータ） (2024-08-15T11:32:46Z)
ARVO: Atlas of Reproducible Vulnerabilities for Open Source Software [20.927909014593318]
オープンソースソフトウェアでは,ARVO:Atlas of Reproducible Vulnerabilitiesを紹介した。 250以上のプロジェクトにわたって5,000以上のメモリ脆弱性を再現しています。 OSS-Fuzzが新たな脆弱性を見つけると、データセットは自動的に更新されます。
論文参考訳（メタデータ） (2024-08-04T22:13:14Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文参考訳（メタデータ） (2024-06-26T05:36:23Z)
On Security Weaknesses and Vulnerabilities in Deep Learning Systems [32.14068820256729]
具体的には、ディープラーニング(DL)フレームワークについて検討し、DLシステムにおける脆弱性に関する最初の体系的な研究を行う。各種データベースの脆弱性パターンを探索する2ストリームデータ分析フレームワークを提案する。我々は,脆弱性のパターンと修正の課題をよりよく理解するために,3,049個のDL脆弱性を大規模に検討した。
論文参考訳（メタデータ） (2024-06-12T23:04:13Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Profile of Vulnerability Remediations in Dependencies Using Graph Analysis [40.35284812745255]
本研究では,グラフ解析手法と改良型グラフ注意畳み込みニューラルネットワーク(GAT)モデルを提案する。制御フローグラフを分析して、脆弱性の修正を目的とした依存性のアップグレードから発生するアプリケーションの変更をプロファイルします。結果は、コード脆弱性のリレーショナルダイナミクスに関する微妙な洞察を提供する上で、強化されたGATモデルの有効性を示す。
論文参考訳（メタデータ） (2024-03-08T02:01:47Z)
REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文参考訳（メタデータ） (2023-09-15T02:50:08Z)
DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection [29.52887618905746]
このデータセットには、150のCWEにまたがる18,945の脆弱性関数と、7,514のコミットから抽出された330,492の非脆弱性関数が含まれている。以上の結果から,高い偽陽性率,低いF1スコア,難解なCWEの検出が困難であったため,ディープラーニングは依然として脆弱性検出の準備が整っていないことが示唆された。大規模言語モデル(LLM)はMLベースの脆弱性検出において有望な研究方向であり,コード構造を持つグラフニューラルネットワーク(GNN)よりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-01T23:29:14Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文参考訳（メタデータ） (2020-12-18T22:38:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。