論文の概要: VulnLLM-R: Specialized Reasoning LLM with Agent Scaffold for Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2512.07533v1
- Date: Mon, 08 Dec 2025 13:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.898623
- Title: VulnLLM-R: Specialized Reasoning LLM with Agent Scaffold for Vulnerability Detection
- Title(参考訳): VulnLLM-R: 脆弱性検出のためのエージェントスキャフォールド付き特殊推論LDM
- Authors: Yuzhou Nie, Hongwei Li, Chengquan Guo, Ruizhe Jiang, Zhun Wang, Bo Li, Dawn Song, Wenbo Guo,
- Abstract要約: VulnLLM-R は脆弱性検出のための LLM を最優先の推論である。
私たちは70億のパラメータを持つ推論モデルをトレーニングします。
VulnLLM-R は SOTA 静的解析ツールよりも有効性と効率が優れていることを示す。
- 参考スコア(独自算出の注目度): 45.69684471143409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose VulnLLM-R, the~\emph{first specialized reasoning LLM} for vulnerability detection. Our key insight is that LLMs can reason about program states and analyze the potential vulnerabilities, rather than simple pattern matching. This can improve the model's generalizability and prevent learning shortcuts. However, SOTA reasoning LLMs are typically ultra-large, closed-source, or have limited performance in vulnerability detection. To address this, we propose a novel training recipe with specialized data selection, reasoning data generation, reasoning data filtering and correction, and testing-phase optimization. Using our proposed methodology, we train a reasoning model with seven billion parameters. Through extensive experiments on SOTA datasets across Python, C/C++, and Java, we show that VulnLLM-R has superior effectiveness and efficiency than SOTA static analysis tools and both open-source and commercial large reasoning models. We further conduct a detailed ablation study to validate the key designs in our training recipe. Finally, we construct an agent scaffold around our model and show that it outperforms CodeQL and AFL++ in real-world projects. Our agent further discovers a set of zero-day vulnerabilities in actively maintained repositories. This work represents a pioneering effort to enable real-world, project-level vulnerability detection using AI agents powered by specialized reasoning models. The code is available at~\href{https://github.com/ucsb-mlsec/VulnLLM-R}{github}.
- Abstract(参考訳): 本稿では脆弱性検出のための 〜\emph{first special reasoning LLM} である VulnLLM-R を提案する。
私たちの重要な洞察は、LCMは単純なパターンマッチングではなく、プログラム状態について推論し、潜在的な脆弱性を分析することができるということです。
これにより、モデルの一般化性が向上し、学習ショートカットが防止される。
しかし、SOTA推論LSMは一般的に超大型でクローズドソースであり、脆弱性検出の性能は限られている。
そこで本研究では,特殊なデータ選択,推論データ生成,推論データフィルタリングと修正,テストフェーズ最適化を備えた新しいトレーニングレシピを提案する。
提案手法を用いて,70億のパラメータを持つ推論モデルを訓練する。
Python、C/C++、JavaにわたるSOTAデータセットに関する広範な実験を通して、VulnLLM-Rは、SOTA静的解析ツールやオープンソースおよび商用の大規模推論モデルよりも有効性と効率が優れていることを示した。
さらに、トレーニングレシピの重要な設計を検証するために、詳細なアブレーション研究を実施しています。
最後に、モデルの周りにエージェントの足場を構築し、実際のプロジェクトでのCodeQLとAFL++よりも優れていることを示す。
私たちのエージェントは、アクティブにメンテナンスされたリポジトリにおいて、ゼロデイ脆弱性のセットをさらに発見します。
この研究は、特殊な推論モデルを利用したAIエージェントを使用して、現実のプロジェクトレベルの脆弱性検出を可能にする、先駆的な取り組みである。
コードは~\href{https://github.com/ucsb-mlsec/VulnLLM-R}{github}で入手できる。
関連論文リスト
- ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Towards Explainable Vulnerability Detection with Large Language Models [14.243344783348398]
ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。
大規模言語モデル(LLMs)の出現は、その高度な生成能力による変換ポテンシャルを導入している。
本稿では,脆弱性検出と説明という2つのタスクにLLMを専門化する自動フレームワークであるLLMVulExpを提案する。
論文 参考訳(メタデータ) (2024-06-14T04:01:25Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。
最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。
脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。