論文の概要: Data and Context Matter: Towards Generalizing AI-based Software Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2508.16625v2
- Date: Mon, 06 Oct 2025 19:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:21.273694
- Title: Data and Context Matter: Towards Generalizing AI-based Software Vulnerability Detection
- Title(参考訳): データとコンテキスト:AIベースのソフトウェア脆弱性検出の一般化を目指して
- Authors: Rijha Safdar, Danyail Mateen, Syed Taha Ali, M. Umer Ashfaq, Wajahat Hussain,
- Abstract要約: VulGateは、先行データセットの欠点を緩和するアートデータセットの高品質な状態である。
また、複数のエンコーダのみおよびデコーダのみのモデルを導入し、ベンチマークする。
我々のモデルは、ベンチマークBigVulデータセットでのリコールの改善を textbf6.8% で達成し、目に見えないプロジェクトでは他よりも優れています。
- 参考スコア(独自算出の注目度): 0.6905053769416639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-based solutions demonstrate remarkable results in identifying vulnerabilities in software, but research has consistently found that this performance does not generalize to unseen codebases. In this paper, we specifically investigate the impact of model architecture, parameter configuration, and quality of training data on the ability of these systems to generalize. For this purpose, we introduce VulGate, a high quality state of the art dataset that mitigates the shortcomings of prior datasets, by removing mislabeled and duplicate samples, updating new vulnerabilities, incorporating additional metadata, integrating hard samples, and including dedicated test sets. We undertake a series of experiments to demonstrate that improved dataset diversity and quality substantially enhances vulnerability detection. We also introduce and benchmark multiple encoder-only and decoder-only models. We find that encoder-based models outperform other models in terms of accuracy and generalization. Our model achieves \textbf{6.8\%} improvement in recall on the benchmark BigVul dataset and outperforms others on unseen projects, demonstrating enhanced generalizability. Our results highlight the role of data quality and model selection in the development of robust vulnerability detection systems. Our findings suggest a direction for future systems with high cross-project effectiveness.
- Abstract(参考訳): AIベースのソリューションは、ソフトウェアの脆弱性を特定するという驚くべき結果を示しているが、研究により、このパフォーマンスが目に見えないコードベースに一般化されないことが一貫して確認されている。
本稿では,モデルアーキテクチャ,パラメータ設定,トレーニングデータの質が,これらのシステムの一般化能力に与える影響について検討する。
この目的のために、誤ラベルと重複サンプルの削除、新たな脆弱性の更新、メタデータの追加、ハードサンプルの統合、専用のテストセットを含むことによって、以前のデータセットの欠点を軽減する、高品質な最先端データセットであるVulGateを紹介します。
データセットの多様性と品質の改善が脆弱性検出を大幅に強化することを示すために、一連の実験を実施した。
また、複数のエンコーダのみおよびデコーダのみのモデルを導入し、ベンチマークする。
エンコーダに基づくモデルは、精度と一般化の観点から、他のモデルよりも優れていることがわかった。
我々のモデルは、ベンチマークBigVulデータセットをリコールすることで、textbf{6.8\%}の改善を達成し、未確認プロジェクトにおいて他よりも優れ、一般化可能性の向上を実証する。
その結果,ロバストな脆弱性検出システムの開発において,データ品質とモデル選択が果たす役割を強調した。
本研究は,プロジェクト間の有効性が高い将来のシステムへの方向性を示唆するものである。
関連論文リスト
- AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
本稿では,データセットを生成するためのセキュアなC/C++に,現実的なカテゴリ固有の脆弱性を自動的に導入する新しいフレームワークを提案する。
提案したアプローチは、専門家の推論をシミュレートする複数のAIエージェントと、関数エージェントと従来のコード解析ツールをコーディネートする。
3つの異なるベンチマークから得られた116のコードサンプルに関する実験的研究は、我々のアプローチがデータセットの精度に関して他の手法よりも優れていることを示唆している。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。
最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文 参考訳(メタデータ) (2025-07-13T08:02:56Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [78.18946529195254]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [50.49233187721795]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets [4.385369356819613]
本稿では,脆弱性検出モデルを評価するための実世界のシナリオを表すデータセットであるReal-Vulを紹介する。
DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。
オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。
論文 参考訳(メタデータ) (2024-07-03T13:34:30Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - An Outlier Exposure Approach to Improve Visual Anomaly Detection
Performance for Mobile Robots [76.36017224414523]
移動ロボットの視覚異常検出システム構築の問題点を考察する。
標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。
本研究では,これらのデータを利用してリアルNVP異常検出モデルの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-20T15:18:13Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。