論文の概要: Specification-Guided Vulnerability Detection with Large Language Models
- arxiv url: http://arxiv.org/abs/2511.04014v1
- Date: Thu, 06 Nov 2025 03:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.286327
- Title: Specification-Guided Vulnerability Detection with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた仕様ガイドによる脆弱性検出
- Authors: Hao Zhu, Jia Li, Cuiyun Gao, Jiaru Qian, Yihong Dong, Huanyu Liu, Lecheng Wang, Ziliang Wang, Xiaolong Hu, Ge Li,
- Abstract要約: VulInstructは、過去の脆弱性からセキュリティ仕様を抽出して、新たな脆弱性を検出する仕様誘導型アプローチである。
PrimeVulでは、VulInstructの45.0%のF1スコア(32.7%の改善)と37.7%のリコール(50.8%の改善)がベースラインと比較している。
- 参考スコア(独自算出の注目度): 32.77684612568584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in code understanding tasks. However, they demonstrate limited performance in vulnerability detection and struggle to distinguish vulnerable code from patched code. We argue that LLMs lack understanding of security specifications -- the expectations about how code should behave to remain safe. When code behavior differs from these expectations, it becomes a potential vulnerability. However, such knowledge is rarely explicit in training data, leaving models unable to reason about security flaws. We propose VulInstruct, a specification-guided approach that systematically extracts security specifications from historical vulnerabilities to detect new ones. VulInstruct constructs a specification knowledge base from two perspectives: (i) General specifications from high-quality patches across projects, capturing fundamental safe behaviors; and (ii) Domain-specific specifications from repeated violations in particular repositories relevant to the target code. VulInstruct retrieves relevant past cases and specifications, enabling LLMs to reason about expected safe behaviors rather than relying on surface patterns. We evaluate VulInstruct under strict criteria requiring both correct predictions and valid reasoning. On PrimeVul, VulInstruct achieves 45.0% F1-score (32.7% improvement) and 37.7% recall (50.8% improvement) compared to baselines, while uniquely detecting 24.3% of vulnerabilities -- 2.4x more than any baseline. In pair-wise evaluation, VulInstruct achieves 32.3% relative improvement. VulInstruct also discovered a previously unknown high-severity vulnerability (CVE-2025-56538) in production code, demonstrating practical value for real-world vulnerability discovery. All code and supplementary materials are available at https://github.com/zhuhaopku/VulInstruct-temp.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード理解タスクにおいて顕著な進歩を遂げた。
しかし、脆弱性検出のパフォーマンスは限られており、脆弱性のあるコードをパッチされたコードと区別するのに苦労している。
LLMにはセキュリティ仕様の理解が欠如している、と私たちは主張する。
コード動作がこれらの期待と異なる場合、潜在的な脆弱性となる。
しかし、そのような知識がトレーニングデータで明確になることは滅多になく、モデルにセキュリティ上の欠陥を説明できないままである。
VulInstructは,過去の脆弱性からセキュリティ仕様を体系的に抽出して新たな脆弱性を検出する,仕様誘導型アプローチである。
VulInstructは2つの視点から仕様知識ベースを構築する。
一 プロジェクト全体にわたる高品質のパッチの一般的な仕様、基本的な安全行動の把握
(ii) ターゲットコードに関連する特定のリポジトリにおける繰り返し違反からのドメイン固有の仕様。
VulInstructは関連する過去のケースや仕様を検索し、LLMが表面パターンに頼るのではなく、期待される安全な振る舞いを推論できるようにする。
VulInstructは正確な予測と妥当な推論の両方を必要とする厳格な基準で評価する。
PrimeVulでは、VulInstructはベースラインと比較して45.0%のF1スコア(32.7%の改善)と37.7%のリコール(50.8%の改善)を達成した。
対評価では、VulInstructは32.3%の相対的な改善を達成している。
VulInstructはまた、実世界の脆弱性発見の実用的価値を示す、これまで未知の高重度脆弱性(CVE-2025-56538)をプロダクションコードで発見した。
すべてのコードと補足資料はhttps://github.com/zhuhaopku/VulInstruct-temp.comで入手できる。
関連論文リスト
- What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Weakly Supervised Vulnerability Localization via Multiple Instance Learning [46.980136742826836]
WeAkly によるマルチプルインスタンス学習による脆弱性ローカライゼーションのための WAVES という新しい手法を提案する。
WAVESは、ある関数が脆弱かどうか(すなわち脆弱性検出)を判定し、脆弱なステートメントをピンポイントする機能を持っている。
提案手法は,文レベルの脆弱性ローカライゼーションにおいて,脆弱性検出と最先端のパフォーマンスにおいて同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-14T15:11:39Z) - SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG [19.38891892396794]
Vul-RAGによって生成された脆弱性知識は、手動検出精度を向上させるための高品質な説明として機能する。
Vul-RAGはまた、最近のLinuxカーネルリリースで既知の10のバグを6つのアサインされたCVEで検出できる。
論文 参考訳(メタデータ) (2024-06-17T02:25:45Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Multi-LLM Collaboration + Data-Centric Innovation = 2x Better
Vulnerability Repair [14.920535179015006]
VulMasterはTransformerベースのニューラルネットワークモデルで、データ中心のイノベーションを通じて脆弱性の修復を生成する。
VulMasterを,5,800の脆弱性関数を持つ1,754のプロジェクトからなる実世界のC/C++脆弱性修復データセットで評価した。
論文 参考訳(メタデータ) (2024-01-27T16:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。