論文の概要: LLM-based Vulnerability Detection at Project Scale: An Empirical Study
- arxiv url: http://arxiv.org/abs/2601.19239v1
- Date: Tue, 27 Jan 2026 06:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:53:47.504571
- Title: LLM-based Vulnerability Detection at Project Scale: An Empirical Study
- Title(参考訳): LLMによるプロジェクトスケールの脆弱性検出:実証的研究
- Authors: Fengjie Li, Jiajun Jiang, Dongchi Chen, Yingfei Xiong,
- Abstract要約: 本研究は,LSMをベースとした特殊検出器の総合的研究であり,従来の静的解析器と比較するものである。
本研究は, 現在のLCM検出器の堅牢性, 信頼性, 拡張性において, 限界を指摘するものである。
- 参考スコア(独自算出の注目度): 4.425169461271698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present the first comprehensive empirical study of specialized LLM-based detectors and compare them with traditional static analyzers at the project scale. Specifically, our study evaluates five latest and representative LLM-based methods and two traditional tools using: 1) an in-house benchmark of 222 known real-world vulnerabilities (C/C++ and Java) to assess detection capability, and 2) 24 active open-source projects, where we manually inspected 385 warnings to assess their practical usability and underlying root causes of failures. Our evaluation yields three key findings: First, while LLM-based detectors exhibit low recall on the in-house benchmark, they still uncover more unique vulnerabilities than traditional tools. Second, in open-source projects, both LLM-based and traditional tools generate substantial warnings but suffer from very high false discovery rates, hindering practical use. Our manual analysis further reveals shallow interprocedural reasoning and misidentified source/sink pairs as primary failure causes, with LLM-based tools exhibiting additional unique failures. Finally, LLM-based methods incurs substantial computational costs-hundreds of thousands to hundreds of millions of tokens and multi-hour to multi-day runtimes. Overall, our findings underscore critical limitations in the robustness, reliability, and scalability of current LLM-based detectors. We ultimately summarize a set of implications for future research toward more effective and practical project-scale vulnerability detection.
- Abstract(参考訳): 本稿では,LLMをベースとした特殊検出器の総合的研究を行い,従来の静的解析器と比較する。
具体的には,LLMをベースとした最新の5つの手法と従来の2つのツールについて検討した。
1) 検出能力を評価するための222の既知の実世界の脆弱性(C/C++とJava)の社内ベンチマーク。
2) 24のアクティブなオープンソースプロジェクトにおいて,実践的なユーザビリティと障害の根本原因を評価するために,手動で385の警告を検査しました。
まず、LSMベースの検出器は、社内ベンチマークでのリコールが低いが、従来のツールよりもユニークな脆弱性を発見できる。
第二に、オープンソースのプロジェクトでは、LLMベースのツールと従来のツールの両方が重大な警告を発生させるが、非常に高い偽発見率に悩まされ、実用的な使用を妨げている。
筆者らの手動解析により,LLMをベースとしたツールが新たな障害を呈し,提案手法の誤りの原因として,浅層間推論と誤同定ソース/シンクペアが明らかになった。
最後に、LLMベースの手法は、数千から数億のトークンと複数時間から複数日のランタイムに相当な計算コストを発生させる。
総じて,現在のLCM検出器の堅牢性,信頼性,拡張性に限界があることが示唆された。
最終的に、より効果的で実用的なプロジェクト規模の脆弱性検出に向けた将来の研究への一連の意味を要約する。
関連論文リスト
- Self-Evaluating LLMs for Multi-Step Tasks: Stepwise Confidence Estimation for Failure Detection [1.1087735229999818]
自己評価型大規模言語モデル(LLM)は、複雑な推論において有意義な信頼度推定を提供する。
ステップワイズ評価は一般的に、潜在的なエラーを検出する際の総合的なスコアよりも優れている。
論文 参考訳(メタデータ) (2025-11-10T18:19:51Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。
目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。
LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文 参考訳(メタデータ) (2024-05-24T14:59:19Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。