論文の概要: Are Latent Vulnerabilities Hidden Gems for Software Vulnerability
Prediction? An Empirical Study
- arxiv url: http://arxiv.org/abs/2401.11105v1
- Date: Sat, 20 Jan 2024 03:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:09:10.015706
- Title: Are Latent Vulnerabilities Hidden Gems for Software Vulnerability
Prediction? An Empirical Study
- Title(参考訳): 潜在的な脆弱性はソフトウェア脆弱性予測のための隠れジェムか?
実証的研究
- Authors: Triet H. M. Le, Xiaoning Du, M. Ali Babar
- Abstract要約: 潜伏脆弱な関数は、平均でSVの数を4倍増やし、5kの誤ラベル関数を修正できる。
ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに享受できることが示される。
- 参考スコア(独自算出の注目度): 4.830367174383139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting relevant and high-quality data is integral to the development of
effective Software Vulnerability (SV) prediction models. Most of the current SV
datasets rely on SV-fixing commits to extract vulnerable functions and lines.
However, none of these datasets have considered latent SVs existing between the
introduction and fix of the collected SVs. There is also little known about the
usefulness of these latent SVs for SV prediction. To bridge these gaps, we
conduct a large-scale study on the latent vulnerable functions in two commonly
used SV datasets and their utilization for function-level and line-level SV
predictions. Leveraging the state-of-the-art SZZ algorithm, we identify more
than 100k latent vulnerable functions in the studied datasets. We find that
these latent functions can increase the number of SVs by 4x on average and
correct up to 5k mislabeled functions, yet they have a noise level of around
6%. Despite the noise, we show that the state-of-the-art SV prediction model
can significantly benefit from such latent SVs. The improvements are up to
24.5% in the performance (F1-Score) of function-level SV predictions and up to
67% in the effectiveness of localizing vulnerable lines. Overall, our study
presents the first promising step toward the use of latent SVs to improve the
quality of SV datasets and enhance the performance of SV prediction tasks.
- Abstract(参考訳): 関連性の高い高品質なデータ収集は、効果的なソフトウェア脆弱性(sv)予測モデルの開発に不可欠である。
現在のSVデータセットのほとんどは、脆弱な関数や行を抽出するためにSV固定コミットに依存している。
しかし、これらのデータセットは、収集されたsvの導入と修正の間に潜むsvを考慮していない。
SV予測におけるこれらの潜伏SVの有用性についてはほとんど分かっていない。
これらのギャップを埋めるために、一般的に使われている2つのSVデータセットにおける潜在脆弱性関数とその関数レベルおよびラインレベルSV予測への利用について大規模な研究を行う。
最先端のSZZアルゴリズムを利用して、研究データセットで100万以上の潜在脆弱性関数を識別する。
これらの潜在関数は平均4倍のsv数を増加させ、5kの誤ラベル関数を補正できるが、ノイズレベルは約6%である。
ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに発揮できることを示す。
改善点は、関数レベルのsv予測のパフォーマンス(f1-score)が最大24.5%、脆弱なラインをローカライズする効果が最大67%である。
本研究は,SVデータセットの品質向上と,SV予測タスクの性能向上を目的として,潜伏SVの利用に向けた第一歩を示す。
関連論文リスト
- Conservative Prediction via Data-Driven Confidence Minimization [66.35245313125934]
機械学習モデルのエラーは、特に医療のような安全クリティカルな領域では、コストがかかる。
本稿では、不確実性データセットに対する信頼性を最小化するデータ駆動型信頼性最小化(DCM)を提案する。
実験の結果、DCMは8つのID-OODデータセットペアに対して、最先端のOOD検出方法よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Improving Solar Flare Prediction by Time Series Outlier Detection [1.0131895986034316]
信頼性とモデルの性能の 異常値です
我々は、より弱いフレアの事例のうちの外れ値を検出するために、孤立林を用いている。
我々は,真のスキル統計の279%,ハイドケスキルスコアの68%を達成している。
論文 参考訳(メタデータ) (2022-06-14T22:54:39Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z) - Design Guidelines for Inclusive Speaker Verification Evaluation Datasets [0.6015898117103067]
話者検証(SV)は、アクセス制御を備えた数十億の音声対応デバイスを提供し、音声駆動技術のセキュリティを保証する。
現在のSV評価プラクティスは偏見を評価するには不十分であり、実際の使用シナリオを代表してではなく、過度に単純化され、ユーザを集約している。
本稿では,これらの欠点に対処するSV評価データセットを構築するための設計ガイドラインを提案する。
論文 参考訳(メタデータ) (2022-04-05T15:28:26Z) - On the Use of Fine-grained Vulnerable Code Statements for Software
Vulnerability Assessment Models [0.0]
実世界の200のプロジェクトで429のSVの1,782の関数から得られた大規模データを用いて,関数レベルのSVアセスメントタスクのための機械学習モデルを開発した。
脆弱な文のサイズは5.8倍小さいが、7.5-114.5%以上の評価性能を示す。
論文 参考訳(メタデータ) (2022-03-16T06:29:40Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - DeepCVA: Automated Commit-level Vulnerability Assessment with Deep
Multi-task Learning [0.0]
本稿では、7つのコミットレベルの脆弱性評価タスクを同時に自動化する新しいDeep Multi-task Learning Model、DeepCVAを提案する。
実際のソフトウェアプロジェクト246のプロジェクトで,542の異なるSVを含む1,229の脆弱性コントリビュートコミットに対して大規模な実験を行った。
DeepCVAは、多くの教師なしベースラインモデルよりも38%から59.8%高いマシューズ相関係数を持つ最高の性能モデルである。
論文 参考訳(メタデータ) (2021-08-18T08:43:36Z) - A Survey on Data-driven Software Vulnerability Assessment and
Prioritization [0.0]
ソフトウェア脆弱性(SV)は複雑さと規模が増加しており、多くのソフトウェアシステムに重大なセキュリティリスクを生じさせている。
機械学習やディープラーニングといったデータ駆動技術は、SVの評価と優先順位付けを次のレベルに引き上げた。
論文 参考訳(メタデータ) (2021-07-18T04:49:22Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。