論文の概要: Automatic Data Labeling for Software Vulnerability Prediction Models: How Far Are We?
- arxiv url: http://arxiv.org/abs/2407.17803v1
- Date: Thu, 25 Jul 2024 06:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:57:54.084548
- Title: Automatic Data Labeling for Software Vulnerability Prediction Models: How Far Are We?
- Title(参考訳): ソフトウェア脆弱性予測モデルのための自動データラベリング
- Authors: Triet H. M. Le, M. Ali Babar,
- Abstract要約: ソフトウェア脆弱性(SV)予測は、大規模で高品質なデータを必要とする。
我々は,SV予測のための最先端の自己ラベル付きSVデータD2Aの質と使用法を定量的に質的に検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Software Vulnerability (SV) prediction needs large-sized and high-quality data to perform well. Current SV datasets mostly require expensive labeling efforts by experts (human-labeled) and thus are limited in size. Meanwhile, there are growing efforts in automatic SV labeling at scale. However, the fitness of auto-labeled data for SV prediction is still largely unknown. Aims: We quantitatively and qualitatively study the quality and use of the state-of-the-art auto-labeled SV data, D2A, for SV prediction. Method: Using multiple sources and manual validation, we curate clean SV data from human-labeled SV-fixing commits in two well-known projects for investigating the auto-labeled counterparts. Results: We discover that 50+% of the auto-labeled SVs are noisy (incorrectly labeled), and they hardly overlap with the publicly reported ones. Yet, SV prediction models utilizing the noisy auto-labeled SVs can perform up to 22% and 90% better in Matthews Correlation Coefficient and Recall, respectively, than the original models. We also reveal the promises and difficulties of applying noise-reduction methods for automatically addressing the noise in auto-labeled SV data to maximize the data utilization for SV prediction. Conclusions: Our study informs the benefits and challenges of using auto-labeled SVs, paving the way for large-scale SV prediction.
- Abstract(参考訳): 背景: ソフトウェア脆弱性(SV)の予測には、大規模で高品質なデータが必要である。
現在のSVデータセットは、専門家(人間ラベル付き)による高価なラベル付け作業を必要とするため、サイズは限られている。
一方、大規模に自動SVラベリングの取り組みが増えている。
しかし、SV予測のための自動ラベル付きデータの適合性はほとんど分かっていない。
Aims: SV予測のための最先端の自己ラベル付きSVデータD2Aの質と利用を定量的に定性的に研究する。
方法: 複数ソースと手動検証を用いて, 人ラベル付きSV固定コミットのクリーンなSVデータを2つのよく知られたプロジェクトでキュレートし, 自動ラベル付きコミットを調査した。
結果: 自動ラベル付きSVの50%以上はノイズ(誤ラベル付き)であり, 公表されているSVとほとんど重複しないことがわかった。
しかし、ノイズの多い自動ラベル付きSVを用いたSV予測モデルは、元のモデルに比べて、マシューズ相関係数とリコールの最大22%と90%の性能が向上する。
また,自動ラベル付きSVデータのノイズを自動的に処理し,SV予測のためのデータ利用を最大化するためのノイズ低減手法の適用の約束と難しさを明らかにした。
結論: 本研究は, 自動ラベル付きSVの活用のメリットと課題を明らかにし, 大規模SV予測への道を開いた。
関連論文リスト
- Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help? [0.0]
CVSS(Common Vulnerability Scoring System)タスクにおけるモデルの予測性能は,データ不均衡の軽減によって著しく向上することを示す。
また、ランダムなテキスト挿入、削除、置換といった単純なテキスト拡張は、ボード全体のベースラインよりも優れていることもわかりました。
論文 参考訳(メタデータ) (2024-07-15T13:47:55Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Are Latent Vulnerabilities Hidden Gems for Software Vulnerability
Prediction? An Empirical Study [4.830367174383139]
潜伏脆弱な関数は、平均でSVの数を4倍増やし、5kの誤ラベル関数を修正できる。
ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに享受できることが示される。
論文 参考訳(メタデータ) (2024-01-20T03:36:01Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Semi-supervised Variational Autoencoder for Regression: Application on
Soft Sensors [0.0]
我々は,プロセス品質変数が他のプロセス変数と同じ頻度で収集されないという事実を考慮して,半教師付き学習の利用を動機付けている。
教師付き学習法に基づく品質変動予測のトレーニングには,これらの不正な記録は使用できない。
我々は、回帰のための教師付きVAE(SVAER)のこのアプローチを拡張して、回帰のための半教師付きVAE(SSVAER)につながる非ラベルデータから学習できるようにする。
論文 参考訳(メタデータ) (2022-11-11T02:54:59Z) - On the Use of Fine-grained Vulnerable Code Statements for Software
Vulnerability Assessment Models [0.0]
実世界の200のプロジェクトで429のSVの1,782の関数から得られた大規模データを用いて,関数レベルのSVアセスメントタスクのための機械学習モデルを開発した。
脆弱な文のサイズは5.8倍小さいが、7.5-114.5%以上の評価性能を示す。
論文 参考訳(メタデータ) (2022-03-16T06:29:40Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - Improving Limited Labeled Dialogue State Tracking with Self-Supervision [91.68515201803986]
既存の対話状態追跡(DST)モデルには多くのラベル付きデータが必要である。
本稿では,潜在的一貫性の維持と対話行動のモデル化という,自己指導型の2つの目的について検討する。
提案する自己教師型信号は,1%のラベル付きデータのみを使用する場合,関節ゴール精度を8.95%向上させることができる。
論文 参考訳(メタデータ) (2020-10-26T21:57:42Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。