Fugu-MT 論文翻訳(概要): Out of Distribution, Out of Luck: How Well Can LLMs Trained on Vulnerability Datasets Detect Top 25 CWE Weaknesses?

論文の概要: Out of Distribution, Out of Luck: How Well Can LLMs Trained on Vulnerability Datasets Detect Top 25 CWE Weaknesses?

arxiv url: http://arxiv.org/abs/2507.21817v1
Date: Tue, 29 Jul 2025 13:51:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:56.4469
Title: Out of Distribution, Out of Luck: How Well Can LLMs Trained on Vulnerability Datasets Detect Top 25 CWE Weaknesses?
Title（参考訳）: LLMの脆弱性データセットのトレーニングで、トップ25のCWE弱さを検出できるのか?
Authors: Yikun Li, Ngoc Tan Bui, Ting Zhang, Martin Weyssow, Chengran Yang, Xin Zhou, Jinfeng Jiang, Junkai Chen, Huihui Huang, Huu Hung Nguyen, Chiok Yew Ho, Jie Tan, Ruiyin Li, Yide Yin, Han Wei Ang, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, David Lo,
Abstract要約: 我々は、手動でキュレートされたテストデータセットであるBenchVulを導入し、MITRE Top 25 Most Dangerous CWEをカバーした。第2に、7つの公開ソースを集約することで35,045の関数からなる高品質なトレーニングデータセットTitanVulを構築した。第3に,シミュレートされた開発を通じてコンテキスト認識型脆弱性事例を合成するリアリスティック・脆弱性生成(RVG)フレームワークを提案する。
参考スコア（独自算出の注目度）: 15.433632243968137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated vulnerability detection research has made substantial progress, yet its real-world impact remains limited. Current vulnerability datasets suffer from issues including label inaccuracy rates of 20-71%, extensive duplication, and poor coverage of critical CWE types. These issues create a significant "generalization gap" where models achieve misleading self-testing performance (measured on held-out data from same dataset for training) by exploiting spurious correlations rather than learning true vulnerability patterns. Our analysis reveals that many models experience substantial performance drops of up to 40.6% when evaluated on independent data, sometimes underperforming random guessing. To address these limitations, we present a three-part solution. First, we introduce a manually curated test dataset, BenchVul, covering the MITRE Top 25 Most Dangerous CWEs. Second, we construct a high-quality training dataset, TitanVul, comprising 35,045 functions by aggregating seven public sources and applying deduplication and validation using a novel multi-agent LLM framework. Third, we propose a Realistic Vulnerability Generation (RVG) framework, which synthesizes context-aware vulnerability examples for underrepresented but critical CWE types through simulated development workflows. Our evaluation shows the strengths of each component in closing the generalization gap. First, BenchVul shows the limitations of self-testing: models trained on existing datasets, such as BigVul and PrimeVul, experience performance drops on BenchVul (from 0.776 to 0.519 and from 0.567 to 0.337). Second, training models on TitanVul demonstrates improved generalization, with model performance increasing from 0.584 when evaluated on the same dataset to 0.767 when tested on BenchVul. Third, supplementing TitanVul with RVG-generated data yields further gains, increasing model performance by 14.0% to 0.874.
Abstract（参考訳）: 自動脆弱性検出研究は大きな進歩を遂げているが、実際の影響は限られている。現在の脆弱性データセットは、ラベル不正確率20-71%、広範囲の重複、重要なCWEタイプのカバー不足といった問題に悩まされている。これらの問題は、モデルが真の脆弱性パターンを学習するのではなく、急激な相関を利用して、誤解を招く自己テストのパフォーマンス(トレーニングのために同じデータセットから保持されたデータに基づいて測定される)を達成するという、大きな"一般化ギャップ"を生み出します。我々の分析では、多くのモデルが独立したデータで評価すると40.6%の大幅な性能低下を経験し、時にはランダムな推測よりも低い結果が得られた。これらの制限に対処するため、我々は三部構成の解を提示する。まず、手動でキュレートされたテストデータセットであるBenchVulを紹介します。第2に、7つの公開ソースを集約し、新しいマルチエージェントLLMフレームワークを用いて復号化と検証を適用することにより、35,045の関数からなる高品質なトレーニングデータセットTitanVulを構築した。第3に,未表現だが重要なCWE型に対するコンテキスト認識型脆弱性例をシミュレートされた開発ワークフローを通じて合成する,現実的脆弱性生成(RVG)フレームワークを提案する。本評価は,一般化ギャップを閉じる際の各成分の強度を示す。まず、BenchVulは自己テストの限界を示している:BigVulやPrimeVulのような既存のデータセットでトレーニングされたモデル、BenchVulのパフォーマンス低下(0.776から0.519、0.567から0.337)。第2に、TitanVulのトレーニングモデルでは、モデルのパフォーマンスが0.584からBenchVulでのテストでは0.767に向上した。第3に、TitanVulをRVG生成データで補うことで、モデル性能を14.0%から0.874に向上させる。

関連論文リスト

VLAI: A RoBERTa-Based Model for Automated Vulnerability Severity Classification [49.1574468325115]
RoBERTa上に構築されたVLAIは、60万以上の現実世界の脆弱性に微調整されている。モデルとデータセットはオープンソースで、Vulnerability-Lookupサービスに統合されている。
論文参考訳（メタデータ） (2025-07-04T14:28:14Z)
SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文参考訳（メタデータ） (2025-05-26T11:06:03Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
CleanVul: Automatic Function-Level Vulnerability Detection in Code Commits Using LLM Heuristics [12.053158610054911]
本稿では,Large Language Model (LLM) を用いて,VFCからの脆弱性修正変更を自動的に識別する手法を提案する。 VulSifterは大規模な研究に適用され、GitHubで127,063のリポジトリをクロールした。次に,8,203個の関数からなる高品質なデータセットであるCleanVulを開発した。
論文参考訳（メタデータ） (2024-11-26T09:51:55Z)
VulScribeR: Exploring RAG-based Vulnerability Augmentation with LLMs [19.45598962972431]
VulScribeRは、慎重にキュレートされたプロンプトテンプレートを利用して脆弱なデータセットを拡張する新しいソリューションである。我々のアプローチでは、VulgenとVGXの2つのSOTAメソッドを破り、Random Oversampling(ROS)は27.48%、27.93%、f1スコアで15.41%の脆弱性サンプルを生成する。提案手法は,1Kサンプルを188ドル程度の安価で生成することで,大規模データ拡張の実現可能性を示す。
論文参考訳（メタデータ） (2024-08-07T23:22:58Z)
Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets [4.385369356819613]
本稿では,脆弱性検出モデルを評価するための実世界のシナリオを表すデータセットであるReal-Vulを紹介する。 DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。
論文参考訳（メタデータ） (2024-07-03T13:34:30Z)
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文参考訳（メタデータ） (2024-04-04T17:58:02Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。 CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文参考訳（メタデータ） (2024-03-15T17:33:49Z)
Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-08T07:05:36Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。