Fugu-MT 論文翻訳(概要): Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models

論文の概要: Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models

arxiv url: http://arxiv.org/abs/2606.04739v1
Date: Wed, 03 Jun 2026 11:20:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.703855
Title: Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models
Title（参考訳）: Vul-RAGの再検討:オープンウェイトモデルを用いたRAGに基づく脆弱性検出の再現性と再現性
Authors: Sabrina Kaniewski, Fabian Schmidt, Tobias Heer,
Abstract要約: 本稿では,ソースコード脆弱性検出のフレームワークであるVul-RAGについて述べる。結果より,Vul-RAGは局所的な展開では再現可能であるが,軽微な偏差は認められなかった。本稿では,検出効率,モデル能力,モデルスケール間の実践的意味とトレードオフについて論じる。
参考スコア（独自算出の注目度）: 0.2730969268472861
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown strong potential for automated software vulnerability detection, particularly in retrieval-augmented generation (RAG) settings. However, for approaches relying on proprietary models and APIs, reproducibility and replicability remain largely unexplored, raising the question of whether reported results generalize or depend primarily on specific model choices. In this work, we present a reproducibility study of Vul-RAG, a RAG-based framework for source code vulnerability detection that enhances LLMs with high-level vulnerability knowledge. We first replicate the results in a fully local and open-weights setting using the reported open-weight baseline models. We then extend the evaluation to a diverse set of recent open-weight LLMs, including code-specialized, general-purpose, and reasoning models of varying parameter sizes. The results confirm that the findings of Vul-RAG are reproducible under local deployment, but with minor deviations. Across all evaluated models, we observe a performance plateau at approximately 0.30 pairwise accuracy (code pairs for which both the vulnerable and the patched function are correctly classified). Notably, this plateau persists even for more recent and advanced models, indicating that improvements in model capacity alone do not substantially enhance performance. Finally, we discuss practical implications and trade-offs between detection effectiveness, model capabilities, and model scale. Implementation and evaluation artifacts are publicly available at https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特に検索強化生成(RAG)設定において、ソフトウェア脆弱性の自動検出に強い可能性を示している。しかしながら、プロプライエタリなモデルやAPIに依存したアプローチでは、再現性と複製性はほとんど探索されていないままであり、報告された結果が一般化されるか、主に特定のモデル選択に依存するかという疑問が提起されている。本稿では,ソースコード脆弱性検出のためのRAGベースのフレームワークであるVul-RAGの再現性について述べる。まず、報告されたオープンウェイトベースラインモデルを用いて、完全に局所的でオープンウェイトな設定で結果を再現する。次に、コード固有化、汎用化、および様々なパラメータサイズの推論モデルを含む、最近のオープンウェイト LLM の多様なセットに評価を拡張します。その結果,Vul-RAGは局所的な展開では再現可能であるが,わずかな偏差は認められなかった。評価されたすべてのモデルにおいて、約0.30のペアの精度(脆弱性とパッチ関数の両方が正しく分類されたコードペア)で性能プラトーを観測する。特に、この高原はより最近のモデルや高度なモデルでも存続しており、モデルキャパシティの改善だけでは性能が大幅に向上しないことを示している。最後に、検出効率、モデル能力、モデルスケール間の実践的含意とトレードオフについて論じる。実装と評価の成果物はhttps://github.com/hs-esslingen-it-security/revisiting-Vul-RAGで公開されている。

関連論文リスト

Joint Model and Data Sparsification via the Marginal Likelihood [53.29070892356214]
本稿では,個々の特徴とサンプルの相違点を同時学習し,同時にモデルとデータスペーシングを実現することを提案する。このモデルとデータの対称的なプルーニングは、共役を保存する自然な拡張を提供する。多様な回帰タスクにわたる経験的結果は、共同ARDアプローチがスパースモデルとロバスト予測モデルの両方を一貫して生成することを確認した。
論文参考訳（メタデータ） (2026-05-28T13:26:53Z)
On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文参考訳（メタデータ） (2026-05-12T11:33:49Z)
Large Vision-Language Models Get Lost in Attention [51.851592109135716]
本稿では,情報理論と幾何に基づく統合フレームワークを提案し,残差更新の幾何的およびエントロピー的性質を定量化する。注意は再設定に焦点を当てたサブスペース言語演算子として機能し、FFNはセマンティックイノベーションを駆動するサブスペース言語演算子として機能します。
論文参考訳（メタデータ） (2026-05-07T04:45:52Z)
Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA) 我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-15T08:39:22Z)
It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文参考訳（メタデータ） (2025-07-13T08:02:56Z)
Understanding the Impact of Confidence in Retrieval Augmented Generation: A Case Study in the Medical Domain [26.72234494972736]
Retrieval Augmented Generation (RAG) は、クエリの応答精度を高めるために外部情報を活用することで、Large Language Models (LLM) の知識を補完する。本研究は、RAGが医療領域におけるLCM出力の信頼性を向上させるかどうかを検討することに焦点を当てた。我々は,モデルの予測確率をその出力として扱い,キャリブレーション誤差法,エントロピー,最適確率,精度などを含むいくつかの評価指標を計算することにより,信頼度を評価する。
論文参考訳（メタデータ） (2024-12-29T00:58:33Z)
Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文参考訳（メタデータ） (2024-09-24T14:52:14Z)
DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。 DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-08-01T07:08:11Z)
A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference [4.478182379059458]
FidesはML-as-a-Service(ML)推論のリアルタイム整合性検証のための新しいフレームワークである。 Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。
論文参考訳（メタデータ） (2023-03-31T19:17:30Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。