論文の概要: Toward Realistic Evaluations of Just-In-Time Vulnerability Prediction
- arxiv url: http://arxiv.org/abs/2507.10729v2
- Date: Tue, 22 Jul 2025 15:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 13:10:14.704965
- Title: Toward Realistic Evaluations of Just-In-Time Vulnerability Prediction
- Title(参考訳): ジャストインタイム脆弱性予測の現実的評価に向けて
- Authors: Duong Nguyen, Thanh Le-Cong, Triet Huynh Minh Le, M. Ali Babar, Quyet-Thang Huynh,
- Abstract要約: Just-in-timeの脆弱性予測(JIT-VP)は、脆弱性のあるコミットを特定し、潜在的なセキュリティリスクを早期に警告する、積極的なアプローチである。
本研究は,脆弱性関連コミットと脆弱性中立コミットの両方を含む,より現実的な設定でJIT-VP技術の有効性を評価する。
8つの最先端JIT-VP技術に関する実証分析により,実環境に適用した場合の予測性能が著しく低下することが判明した。
- 参考スコア(独自算出の注目度): 3.6344738864502606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern software systems are increasingly complex, presenting significant challenges in quality assurance. Just-in-time vulnerability prediction (JIT-VP) is a proactive approach to identifying vulnerable commits and providing early warnings about potential security risks. However, we observe that current JIT-VP evaluations rely on an idealized setting, where the evaluation datasets are artificially balanced, consisting exclusively of vulnerability-introducing and vulnerability-fixing commits. To address this limitation, this study assesses the effectiveness of JIT-VP techniques under a more realistic setting that includes both vulnerability-related and vulnerability-neutral commits. To enable a reliable evaluation, we introduce a large-scale public dataset comprising over one million commits from FFmpeg and the Linux kernel. Our empirical analysis of eight state-of-the-art JIT-VP techniques reveals a significant decline in predictive performance when applied to real-world conditions; for example, the average PR-AUC on Linux drops 98% from 0.805 to 0.016. This discrepancy is mainly attributed to the severe class imbalance in real-world datasets, where vulnerability-introducing commits constitute only a small fraction of all commits. To mitigate this issue, we explore the effectiveness of widely adopted techniques for handling dataset imbalance, including customized loss functions, oversampling, and undersampling. Surprisingly, our experimental results indicate that these techniques are ineffective in addressing the imbalance problem in JIT-VP. These findings underscore the importance of realistic evaluations of JIT-VP and the need for domain-specific techniques to address data imbalance in such scenarios.
- Abstract(参考訳): 現代のソフトウェアシステムはますます複雑になってきており、品質保証に大きな課題が浮かび上がっている。
Just-in-timeの脆弱性予測(JIT-VP)は、脆弱性のあるコミットを特定し、潜在的なセキュリティリスクを早期に警告する、積極的なアプローチである。
しかしながら,現在のJIT-VP評価は,脆弱性導入と脆弱性修正のコミットのみからなる,評価データセットが人工的バランスをとる理想的な設定に依存している。
この制限に対処するため,本研究では,脆弱性関連コミットと脆弱性中立コミットの両方を含む,より現実的な設定下でJIT-VP技術の有効性を評価する。
信頼性の高い評価を実現するため,FFmpegとLinuxカーネルからの100万件以上のコミットからなる大規模パブリックデータセットを導入する。
例えば,Linux上の平均PR-AUCは 0.805 から 0.016 に 98% 減少する。
この相違は主に、脆弱性導入コミットがすべてのコミットのごく一部を占めるような、現実世界のデータセットの厳しいクラス不均衡に起因する。
この問題を緩和するために、カスタマイズされた損失関数、オーバーサンプリング、アンダーサンプリングを含むデータセット不均衡を扱うための広く採用されている手法の有効性について検討する。
実験結果から,JIT-VPの不均衡問題に対処するには,これらの手法が有効でないことが示唆された。
これらの知見は、JIT-VPの現実的な評価の重要性と、そのようなシナリオにおけるデータの不均衡に対処するためのドメイン固有の技術の必要性を浮き彫りにしている。
関連論文リスト
- VulStamp: Vulnerability Assessment using Large Language Model [28.25412570467278]
VulStampは、記述不要の脆弱性評価を容易にする、意図誘導型フレームワークである。
意図的な情報に基づいて、VulStampは脆弱性評価にプロンプトチューニングされたモデルを使用する。
論文 参考訳(メタデータ) (2025-06-13T06:14:56Z) - SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - Stratify: Rethinking Federated Learning for Non-IID Data through Balanced Sampling [9.774529150331297]
Stratifyは、トレーニング全体を通してクラスとフィーチャーの配布を体系的に管理するために設計された、新しいFLフレームワークである。
従来の階層化サンプリングに着想を得て,SLS(Stratified Label Schedule)を用いてラベル間のバランスの取れた露出を確保する。
プライバシーを守るため,同型暗号化を利用したセキュアクライアント選択プロトコルを実装した。
論文 参考訳(メタデータ) (2025-04-18T04:44:41Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - FEDLAD: Federated Evaluation of Deep Leakage Attacks and Defenses [50.921333548391345]
フェデレーテッド・ラーニング(Federated Learning)は、分散型機械学習パラダイムをプライバシ保護するものだ。
近年の研究では、Deep Leakageと呼ばれる勾配技術によって、民間の真実データを復元できることが判明している。
本稿では、Deep Leakage攻撃と防御を評価するための総合的なベンチマークであるFEDLAD Framework(Federated Evaluation of Deep Leakage Attacks and Defenses)を紹介する。
論文 参考訳(メタデータ) (2024-11-05T11:42:26Z) - Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets [4.385369356819613]
本稿では,脆弱性検出モデルを評価するための実世界のシナリオを表すデータセットであるReal-Vulを紹介する。
DeepWukong、LineVul、ReVeal、IVDetectの評価では、パフォーマンスが大幅に低下し、精度は95パーセントまで低下し、F1スコアは91ポイントまで低下した。
オーバーフィッティングは重要な問題として認識され、改善手法が提案され、パフォーマンスが最大30%向上する可能性がある。
論文 参考訳(メタデータ) (2024-07-03T13:34:30Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。