論文の概要: Vulnerability Detection with Interprocedural Context in Multiple Languages: Assessing Effectiveness and Cost of Modern LLMs
- arxiv url: http://arxiv.org/abs/2604.08417v1
- Date: Thu, 09 Apr 2026 16:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.019187
- Title: Vulnerability Detection with Interprocedural Context in Multiple Languages: Assessing Effectiveness and Cost of Modern LLMs
- Title(参考訳): 複数言語における言語間文脈による脆弱性検出:現代LLMの有効性とコストの評価
- Authors: Kevin Lira, Baldoino Fonseca, Davy Baía, Márcio Ribeiro, Wesley K. G. Assunção,
- Abstract要約: 大規模言語モデル(LLM)は、自動脆弱性検出のための有望な方法である。
本研究では,相互依存関係に関連する脆弱性の検出における検出の有効性,推論コスト,説明の質について検討した。
その結果、Gemini 3 FlashはCの脆弱性に対して最もコスト効率の良いトレードオフを提供することがわかった。
- 参考スコア(独自算出の注目度): 4.077363992854019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been a promising way for automated vulnerability detection. However, most prior studies have explored the use of LLMs to detect vulnerabilities only within single functions, disregarding those related to interprocedural dependencies. These studies overlook vulnerabilities that arise from data and control flows that span multiple functions. Thus, leveraging the context provided by callers and callees may help identify vulnerabilities. This study empirically investigates the effectiveness of detection, the inference cost, and the quality of explanations of four modern LLMs (Claude Haiku 4.5, GPT-4.1 Mini, GPT-5 Mini, and Gemini 3 Flash) in detecting vulnerabilities related to interprocedural dependencies. To do that, we conducted an empirical study on 509 vulnerabilities from the ReposVul dataset, systematically varying the level of interprocedural context (target function code-only, target function + callers, and target function + callees) and evaluating the four modern LLMs across C, C++, and Python. The results show that Gemini 3 Flash offers the best cost-effectiveness trade-off for C vulnerabilities, achieving F1 >= 0.978 at an estimated cost of $0.50-$0.58 per configuration, and Claude Haiku 4.5 correctly identified and explained the vulnerability in 93.6% of the evaluated cases. Overall, the findings have direct implications for the design of AI-assisted security analysis tools that can generalize across codebases in multiple programming languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動脆弱性検出のための有望な方法である。
しかしながら、ほとんどの先行研究は、単一機能内でのみ脆弱性を検出するためにLLMを使用しており、相互依存関係に関連するものを無視している。
これらの研究は、複数の機能にまたがるデータと制御フローから生じる脆弱性を見落としている。
したがって、呼び出し元と呼び出し元によって提供されるコンテキストを活用することは、脆弱性の特定に役立ちます。
本研究は,4種類の近代LCM (Claude Haiku 4.5, GPT-4.1 Mini, GPT-5 Mini, Gemini 3 Flash) の検出の有効性, 推論コスト, 説明の質について実験的に検討した。
そこで我々は,ReposVulデータセットから509の脆弱性に関する実証的研究を行い,言語間コンテキスト(ターゲット関数コードのみ,ターゲット関数+呼び出し,ターゲット関数+呼び出し,ターゲット関数+呼び出し)のレベルを体系的に変更し,C,C++,Pythonの4つの近代LCMを評価した。
その結果、Gemini 3 FlashはCの脆弱性に対して最高の費用対効果のトレードオフを提供し、F1 >=0.978を1構成あたり0.50-$0.58のコストで達成し、Claude Haiku 4.5は評価されたケースの93.6%でその脆弱性を正しく特定し説明した。
全体として、この発見は、複数のプログラミング言語のコードベースをまたいで一般化できるAI支援のセキュリティ分析ツールの設計に直接的な意味を持つ。
関連論文リスト
- ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning [20.463200377413255]
大規模言語モデルの脆弱性推論機能を評価する統合評価フレームワークを導入する。
我々は,3,528の制御シナリオにおいて,6つの代表的なLSMを,147のグランドトルース脆弱性と147の非加重性ケースでテストした。
本研究は,知識強化,文脈補充,即時的スキームの様々な影響を明らかにするものである。
論文 参考訳(メタデータ) (2024-01-29T14:32:27Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。