論文の概要: ReVul-CoT: Towards Effective Software Vulnerability Assessment with Retrieval-Augmented Generation and Chain-of-Thought Prompting
- arxiv url: http://arxiv.org/abs/2511.17027v1
- Date: Fri, 21 Nov 2025 08:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.927732
- Title: ReVul-CoT: Towards Effective Software Vulnerability Assessment with Retrieval-Augmented Generation and Chain-of-Thought Prompting
- Title(参考訳): ReVul-CoT:Retrieval-Augmented GenerationとChain-of-Thought Promptingによる効果的なソフトウェア脆弱性評価に向けて
- Authors: Zhijie Chen, Xiang Chen, Ziming Li, Jiacheng Xue, Chaoyang Gao,
- Abstract要約: 本稿では,検索・拡張生成(RAG)とChain-of-Thought(COT)のプロンプトを統合した新しいフレームワークを提案する。
ReVul-CoTでは、RAGモジュールは構築されたローカル知識ベースからコンテキスト関連情報を動的に取得する。
DeepSeek-V3.1 上に構築されている CoT は LLM に対して,利用性や影響範囲,関連する要因に関するステップバイステップの推論を行うように促している。
- 参考スコア(独自算出の注目度): 9.735224996021591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Software Vulnerability Assessment (SVA) plays a vital role in evaluating and ranking vulnerabilities in software systems to ensure their security and reliability. Objective: Although Large Language Models (LLMs) have recently shown remarkable potential in SVA, they still face two major limitations. First, most LLMs are trained on general-purpose corpora and thus lack domain-specific knowledge essential for effective SVA. Second, they tend to rely on shallow pattern matching instead of deep contextual reasoning, making it challenging to fully comprehend complex code semantics and their security implications. Method: To alleviate these limitations, we propose a novel framework ReVul-CoT that integrates Retrieval-Augmented Generation (RAG) with Chain-of-Thought (COT) prompting. In ReVul-CoT, the RAG module dynamically retrieves contextually relevant information from a constructed local knowledge base that consolidates vulnerability data from authoritative sources (such as NVD and CWE), along with corresponding code snippets and descriptive information. Building on DeepSeek-V3.1, CoT prompting guides the LLM to perform step-by-step reasoning over exploitability, impact scope, and related factors Results: We evaluate ReVul-CoT on a dataset of 12,070 vulnerabilities. Experimental results show that ReVul-CoT outperforms state-of-the-art SVA baselines by 16.50%-42.26% in terms of MCC, and outperforms the best baseline by 10.43%, 15.86%, and 16.50% in Accuracy, F1-score, and MCC, respectively. Our ablation studies further validate the contributions of considering dynamic retrieval, knowledge integration, and CoT-based reasoning. Conclusion: Our results demonstrate that combining RAG with CoT prompting significantly enhances LLM-based SVA and points out promising directions for future research.
- Abstract(参考訳): コンテキスト: SVA(Software Vulnerability Assessment)は、セキュリティと信頼性を確保するために、ソフトウェアシステムの脆弱性を評価し、ランク付けする上で重要な役割を担います。
目的: 大規模言語モデル(LLM)は最近、SVAにおいて顕著な可能性を示しているが、それでも2つの大きな制限に直面している。
第一に、ほとんどのLLMは汎用コーパスで訓練されているため、効果的なSVAに必要なドメイン固有の知識が欠如している。
第二に、深いコンテキスト推論ではなく、浅いパターンマッチングに頼る傾向があるため、複雑なコードセマンティクスとそのセキュリティへの影響を完全に理解することは困難である。
方法: これらの制約を緩和するため, 再帰的生成(RAG)とChain-of-Thought(COT)のプロンプトを統合した新しいフレームワークであるReVul-CoTを提案する。
ReVul-CoTでは、RAGモジュールが構築されたローカル知識ベースからコンテキスト関連情報を動的に取得し、対応するコードスニペットと記述情報とともに権威ソース(NVDやCWEなど)からの脆弱性データを集約する。
DeepSeek-V3.1上に構築されているCoTプロンプトは、LLMに対して、エクスプロイラビリティ、インパクトスコープ、関連する要因に関するステップバイステップの推論を行うように誘導する。
実験の結果、ReVul-CoTは最先端のSVAベースラインを16.50%-42.26%上回り、最高のベースラインを10.43%、15.86%、そして16.50%の正確性、F1スコア、MCCを上回っていることがわかった。
本研究は, 動的検索, 知識統合, および CoT に基づく推論の寄与を更に検証するものである。
結論: RAG と CoT の併用により LLM ベースの SVA が大幅に向上し,今後の研究に期待できる方向が示唆された。
関連論文リスト
- RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - SVA-ICL: Improving LLM-based Software Vulnerability Assessment via In-Context Learning and Information Fusion [5.06185582943982]
本研究では,大規模言語モデル(LLM)の性能向上のために,文脈内学習(ICL)を活用する新しいアプローチSVA-ICLを提案する。
12,071個のC/C++脆弱性からなる大規模データセットを用いて,SVA-ICLの有効性を評価する。
論文 参考訳(メタデータ) (2025-05-15T06:43:32Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - R2Vul: Learning to Reason about Software Vulnerabilities with Reinforcement Learning and Structured Reasoning Distillation [11.15622721122057]
大規模言語モデル(LLM)は、ソフトウェア脆弱性の検出において有望なパフォーマンスを示しているが、その推論能力は信頼性が保たれている。
本稿では,AIフィードバック(RLAIF)と構造化推論蒸留を組み合わせたR2Vulを提案する。
我々はR2Vulを5つのプログラミング言語と4つの静的解析ツールで評価した。
論文 参考訳(メタデータ) (2025-04-07T03:04:16Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - SAFE: Advancing Large Language Models in Leveraging Semantic and Syntactic Relationships for Software Vulnerability Detection [23.7268575752712]
ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムにとって、一般的かつ重要な懸念事項として浮上している。
本稿では,SVDのソースコードデータから意味的・統語的関係を学習し,活用するための大規模言語モデルの能力を高める新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-02T00:49:02Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。