論文の概要: Are Latent Vulnerabilities Hidden Gems for Software Vulnerability
Prediction? An Empirical Study
- arxiv url: http://arxiv.org/abs/2401.11105v1
- Date: Sat, 20 Jan 2024 03:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:09:10.015706
- Title: Are Latent Vulnerabilities Hidden Gems for Software Vulnerability
Prediction? An Empirical Study
- Title(参考訳): 潜在的な脆弱性はソフトウェア脆弱性予測のための隠れジェムか?
実証的研究
- Authors: Triet H. M. Le, Xiaoning Du, M. Ali Babar
- Abstract要約: 潜伏脆弱な関数は、平均でSVの数を4倍増やし、5kの誤ラベル関数を修正できる。
ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに享受できることが示される。
- 参考スコア(独自算出の注目度): 4.830367174383139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting relevant and high-quality data is integral to the development of
effective Software Vulnerability (SV) prediction models. Most of the current SV
datasets rely on SV-fixing commits to extract vulnerable functions and lines.
However, none of these datasets have considered latent SVs existing between the
introduction and fix of the collected SVs. There is also little known about the
usefulness of these latent SVs for SV prediction. To bridge these gaps, we
conduct a large-scale study on the latent vulnerable functions in two commonly
used SV datasets and their utilization for function-level and line-level SV
predictions. Leveraging the state-of-the-art SZZ algorithm, we identify more
than 100k latent vulnerable functions in the studied datasets. We find that
these latent functions can increase the number of SVs by 4x on average and
correct up to 5k mislabeled functions, yet they have a noise level of around
6%. Despite the noise, we show that the state-of-the-art SV prediction model
can significantly benefit from such latent SVs. The improvements are up to
24.5% in the performance (F1-Score) of function-level SV predictions and up to
67% in the effectiveness of localizing vulnerable lines. Overall, our study
presents the first promising step toward the use of latent SVs to improve the
quality of SV datasets and enhance the performance of SV prediction tasks.
- Abstract(参考訳): 関連性の高い高品質なデータ収集は、効果的なソフトウェア脆弱性(sv)予測モデルの開発に不可欠である。
現在のSVデータセットのほとんどは、脆弱な関数や行を抽出するためにSV固定コミットに依存している。
しかし、これらのデータセットは、収集されたsvの導入と修正の間に潜むsvを考慮していない。
SV予測におけるこれらの潜伏SVの有用性についてはほとんど分かっていない。
これらのギャップを埋めるために、一般的に使われている2つのSVデータセットにおける潜在脆弱性関数とその関数レベルおよびラインレベルSV予測への利用について大規模な研究を行う。
最先端のSZZアルゴリズムを利用して、研究データセットで100万以上の潜在脆弱性関数を識別する。
これらの潜在関数は平均4倍のsv数を増加させ、5kの誤ラベル関数を補正できるが、ノイズレベルは約6%である。
ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに発揮できることを示す。
改善点は、関数レベルのsv予測のパフォーマンス(f1-score)が最大24.5%、脆弱なラインをローカライズする効果が最大67%である。
本研究は,SVデータセットの品質向上と,SV予測タスクの性能向上を目的として,潜伏SVの利用に向けた第一歩を示す。
関連論文リスト
- VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Automatic Data Labeling for Software Vulnerability Prediction Models: How Far Are We? [0.0]
ソフトウェア脆弱性(SV)予測は、大規模で高品質なデータを必要とする。
我々は,SV予測のための最先端の自己ラベル付きSVデータD2Aの質と使用法を定量的に質的に検討した。
論文 参考訳(メタデータ) (2024-07-25T06:22:25Z) - Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help? [0.0]
CVSS(Common Vulnerability Scoring System)タスクにおけるモデルの予測性能は,データ不均衡の軽減によって著しく向上することを示す。
また、ランダムなテキスト挿入、削除、置換といった単純なテキスト拡張は、ボード全体のベースラインよりも優れていることもわかりました。
論文 参考訳(メタデータ) (2024-07-15T13:47:55Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Software Vulnerability Prediction in Low-Resource Languages: An Empirical Study of CodeBERT and ChatGPT [0.0]
我々は,新興言語におけるSVデータの不足が最先端のSV予測モデルに与える影響を評価するための実証的研究を行った。
我々は,関数レベルのSV予測とラインレベルのSV予測のためのデータサンプリング技術を用いて,CodeBERTに基づく最先端モデルの訓練と試験を行う。
論文 参考訳(メタデータ) (2024-04-26T01:57:12Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z) - On the Use of Fine-grained Vulnerable Code Statements for Software
Vulnerability Assessment Models [0.0]
実世界の200のプロジェクトで429のSVの1,782の関数から得られた大規模データを用いて,関数レベルのSVアセスメントタスクのための機械学習モデルを開発した。
脆弱な文のサイズは5.8倍小さいが、7.5-114.5%以上の評価性能を示す。
論文 参考訳(メタデータ) (2022-03-16T06:29:40Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - A Survey on Data-driven Software Vulnerability Assessment and
Prioritization [0.0]
ソフトウェア脆弱性(SV)は複雑さと規模が増加しており、多くのソフトウェアシステムに重大なセキュリティリスクを生じさせている。
機械学習やディープラーニングといったデータ駆動技術は、SVの評価と優先順位付けを次のレベルに引き上げた。
論文 参考訳(メタデータ) (2021-07-18T04:49:22Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。