論文の概要: FORGE: An LLM-driven Framework for Large-Scale Smart Contract Vulnerability Dataset Construction
- arxiv url: http://arxiv.org/abs/2506.18795v1
- Date: Mon, 23 Jun 2025 16:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.075366
- Title: FORGE: An LLM-driven Framework for Large-Scale Smart Contract Vulnerability Dataset Construction
- Title(参考訳): FORGE: 大規模スマートコントラクト脆弱性データセット構築のためのLLM駆動フレームワーク
- Authors: Jiachi Chen, Yiming Shen, Jiashuo Zhang, Zihao Li, John Grundy, Zhenzhe Shao, Yanlin Wang, Jiashui Wang, Ting Chen, Zibin Zheng,
- Abstract要約: FORGEはスマートコントラクト脆弱性データセットを構築するための最初の自動化アプローチである。
81,390のソリッドリティファイルと27,497の脆弱性を296のCWEカテゴリに分類したデータセットを生成した。
その結果、現在の検出能力の重大な制限が明らかになった。
- 参考スコア(独自算出の注目度): 34.20628333535654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality smart contract vulnerability datasets are critical for evaluating security tools and advancing smart contract security research. Two major limitations of current manual dataset construction are (1) labor-intensive and error-prone annotation processes limiting the scale, quality, and evolution of the dataset, and (2) absence of standardized classification rules results in inconsistent vulnerability categories and labeling results across different datasets. To address these limitations, we present FORGE, the first automated approach for constructing smart contract vulnerability datasets. FORGE leverages an LLM-driven pipeline to extract high-quality vulnerabilities from real-world audit reports and classify them according to the CWE, the most widely recognized classification in software security. FORGE employs a divide-and-conquer strategy to extract structured and self-contained vulnerability information from these reports. Additionally, it uses a tree-of-thoughts technique to classify the vulnerability information into the hierarchical CWE classification. To evaluate FORGE's effectiveness, we run FORGE on 6,454 real-world audit reports and generate a dataset comprising 81,390 solidity files and 27,497 vulnerability findings across 296 CWE categories. Manual assessment of the dataset demonstrates high extraction precision and classification consistency with human experts (precision of 95.6% and inter-rater agreement k-$\alpha$ of 0.87). We further validate the practicality of our dataset by benchmarking 13 existing security tools on our dataset. The results reveal the significant limitations in current detection capabilities. Furthermore, by analyzing the severity-frequency distribution patterns through a unified CWE perspective in our dataset, we highlight inconsistency between current smart contract research focus and priorities identified from real-world vulnerabilities...
- Abstract(参考訳): 高品質なスマートコントラクト脆弱性データセットは、セキュリティツールの評価とスマートコントラクトセキュリティ研究の進展に不可欠である。
現在の手動データセット構築の2つの大きな制限は、(1) 作業集約的かつエラーを起こしやすいアノテーションプロセスがデータセットのスケール、品質、進化を制限すること、(2) 標準化された分類規則がないことは、一貫性のない脆弱性カテゴリと異なるデータセット間のラベル付け結果をもたらすことである。
これらの制限に対処するため、スマートコントラクト脆弱性データセットを構築するための最初の自動化アプローチであるFOGEを提案する。
FORGEはLLM駆動パイプラインを活用して、現実世界の監査レポートから高品質な脆弱性を抽出し、ソフトウェアセキュリティにおいて最も広く認識されている分類であるCWEに従ってそれらを分類する。
FORGEは、これらのレポートから構造化された、自己完結した脆弱性情報を抽出する分断型戦略を採用している。
さらに、脆弱性情報を階層的なCWE分類に分類するために、tree-of- Thoughts技術を使用する。
FORGEの有効性を評価するため,実世界で6,454件の監査報告を行い,81,390の固形ファイルと27,497の脆弱性を296のCWEカテゴリで分析した。
データセットのマニュアルアセスメントは、人間の専門家との高い抽出精度と分類整合性を示す(精度95.6%、ラター間合意k-$\alpha$ 0.87)。
データセット上の13の既存のセキュリティツールをベンチマークすることで、データセットの実用性をさらに検証します。
その結果、現在の検出能力の重大な制限が明らかになった。
さらに、データセットの統一CWEパースペクティブを通じて重大度周波数分布パターンを分析することで、現在のスマートコントラクト研究の焦点と現実世界の脆弱性から特定された優先順位との矛盾を強調します。
関連論文リスト
- CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。
既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。
我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - An Empirical Analysis of Vulnerability Detection Tools for Solidity Smart Contracts Using Line Level Manually Annotated Vulnerabilities [5.357551358237259]
本稿では,Solidityスマートコントラクトに特化して設計された自動脆弱性解析ツールの実証評価を行う。
行レベルの脆弱性ラベルを手動でアノテートした2,182インスタンスのアノテートデータセットを用いて評価を行った。
私たちは、最大76.78%の脆弱性を発見できる3つのツールのセットを特定しました。
論文 参考訳(メタデータ) (2025-05-21T17:01:18Z) - Streamlining Security Vulnerability Triage with Large Language Models [0.786186571320448]
セキュリティバグの共通弱さ(CWE)の同定を自動化し,その重症度を評価する新しいアプローチであるCASEYを提案する。
ケーシーはCWE識別精度68%、重度識別精度73.6%、組み合わせ精度51.2%を達成した。
論文 参考訳(メタデータ) (2025-01-31T06:02:24Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。