論文の概要: Beyond Single Bugs: Benchmarking Large Language Models for Multi-Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2512.22306v1
- Date: Fri, 26 Dec 2025 05:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.980301
- Title: Beyond Single Bugs: Benchmarking Large Language Models for Multi-Vulnerability Detection
- Title(参考訳): 単一バグを超えて:マルチ脆弱性検出のための大規模言語モデルのベンチマーク
- Authors: Chinmay Pushkar, Sanchit Kabra, Dhruv Kumar, Jagat Sesh Challa,
- Abstract要約: 我々は,C,C++,Python,JavaScriptの4つの主要言語を対象としたマルチ脆弱性検出のベンチマークを紹介する。
長文コードサンプルに制御された脆弱性数を注入することにより,4万ファイルのデータセットを構築した。
その結果, 脆弱性密度の増加に伴い, 性能が著しく低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 1.2802720336459552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant potential in automated software security, particularly in vulnerability detection. However, existing benchmarks primarily focus on isolated, single-vulnerability samples or function-level classification, failing to reflect the complexity of real-world software where multiple interacting vulnerabilities often coexist within large files. Recent studies indicate that LLMs suffer from "count bias" and "selection bias" in multi-label tasks, yet this has not been rigorously quantified in the domain of code security. In this work, we introduce a comprehensive benchmark for Multi-Vulnerability Detection across four major languages: C, C++, Python, and JavaScript. We construct a dataset of 40,000 files by systematically injecting controlled counts of vulnerabilities (1, 3, 5, and 9) into long-context code samples (7.5k-10k tokens) sourced from CodeParrot. We evaluate five state-of-the-art LLMs, including GPT-4o-mini, Llama-3.3-70B, and the Qwen-2.5 series. Our results reveal a sharp degradation in performance as vulnerability density increases. While Llama-3.3-70B achieves near-perfect F1 scores (approximately 0.97) on single-vulnerability C tasks, performance drops by up to 40% in high-density settings. Notably, Python and JavaScript show distinct failure modes compared to C/C++, with models exhibiting severe "under-counting" (Recall dropping to less than 0.30) in complex Python files.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に脆弱性検出において、ソフトウェアの自動セキュリティにおいて大きな可能性を証明している。
しかし、既存のベンチマークは主に孤立した単一脆弱性のサンプルや関数レベルの分類に重点を置いており、複数の相互作用する脆弱性が大きなファイル内に共存する実世界のソフトウェアの複雑さを反映していない。
近年の研究では、LLMはマルチラベルタスクにおいて"カウントバイアス"と"選択バイアス"に悩まされていることが示されているが、コードセキュリティの領域では厳密に定量化されていない。
本研究では,C,C++,Python,JavaScriptの4つの主要言語を対象としたマルチ脆弱性検出のための総合ベンチマークを紹介する。
CodeParrotから得られた長文コードサンプル(7.5k-10kトークン)に、制御された脆弱性(1, 3, 5, 9)を体系的に注入することで、4万ファイルのデータセットを構築する。
GPT-4o-mini, Llama-3.3-70B, Qwen-2.5 シリーズを含む5種類の最先端 LLM の評価を行った。
その結果, 脆弱性密度の増加に伴い, 性能が著しく低下することが明らかとなった。
Llama-3.3-70Bは単発Cタスクでほぼ完全なF1スコア(約0.97)を達成するが、高密度設定では40%まで性能が低下する。
特に、PythonとJavaScriptはC/C++とは異なる障害モードを示しており、複雑なPythonファイルに厳しい"アンダーカウント"(リコールは0.30未満)のモデルがある。
関連論文リスト
- Diverse LLMs vs. Vulnerabilities: Who Detects and Fixes Them Better? [1.0026496861838445]
DVDR-LLMは様々な大きな言語モデルの出力を組み合わせたアンサンブルフレームワークである。
評価の結果,DVDR-LLMは個々のモデルの平均性能よりも10-12%高い検出精度を示した。
論文 参考訳(メタデータ) (2025-12-14T03:47:39Z) - Has the Two-Decade-Old Prophecy Come True? Artificial Bad Intelligence Triggered by Merely a Single-Bit Flip in Large Language Models [16.552905034341343]
Bit-Flip Attack (BFA)は、ハードウェアフォールトインジェクションを通じてリモートでソフトウェアシステムの完全性を損なう能力に対して、広く注目を集めている。
本稿では,大規模言語モデル(LLM)における単一ビット脆弱性の存在を,.gguf量子化形式を用いて体系的に発見し,検証した最初の例である。
攻撃周波数は毎秒464.3回で、1ビットは31.7秒で100%成功してフリップできる。
論文 参考訳(メタデータ) (2025-10-01T04:20:03Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。
63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。
開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文 参考訳(メタデータ) (2025-08-06T13:48:38Z) - SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems [2.4241401076864]
HackerRank-ASTRA Benchmarkでは、実際のシナリオを反映したプロジェクトベースのコーディング問題が導入されている。
モデル一貫性を32ラン(k = 32)と中央標準偏差で評価する。
上位3モデル(o1、o1-preview、Claude-3.5-Sonnet-1022)は75%のスコアを記録した。
論文 参考訳(メタデータ) (2025-01-31T23:47:02Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。