論文の概要: Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help?
- arxiv url: http://arxiv.org/abs/2407.10722v1
- Date: Mon, 15 Jul 2024 13:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:01:44.798840
- Title: Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help?
- Title(参考訳): ソフトウェア脆弱性評価のためのデータ不均衡の軽減: データ拡張は役立つか?
- Authors: Triet H. M. Le, M. Ali Babar,
- Abstract要約: CVSS(Common Vulnerability Scoring System)タスクにおけるモデルの予測性能は,データ不均衡の軽減によって著しく向上することを示す。
また、ランダムなテキスト挿入、削除、置換といった単純なテキスト拡張は、ボード全体のベースラインよりも優れていることもわかりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Software Vulnerability (SV) assessment is increasingly adopted to address the ever-increasing volume and complexity of SVs. Data-driven approaches have been widely used to automate SV assessment tasks, particularly the prediction of the Common Vulnerability Scoring System (CVSS) metrics such as exploitability, impact, and severity. SV assessment suffers from the imbalanced distributions of the CVSS classes, but such data imbalance has been hardly understood and addressed in the literature. Aims: We conduct a large-scale study to quantify the impacts of data imbalance and mitigate the issue for SV assessment through the use of data augmentation. Method: We leverage nine data augmentation techniques to balance the class distributions of the CVSS metrics. We then compare the performance of SV assessment models with and without leveraging the augmented data. Results: Through extensive experiments on 180k+ real-world SVs, we show that mitigating data imbalance can significantly improve the predictive performance of models for all the CVSS tasks, by up to 31.8% in Matthews Correlation Coefficient. We also discover that simple text augmentation like combining random text insertion, deletion, and replacement can outperform the baseline across the board. Conclusions: Our study provides the motivation and the first promising step toward tackling data imbalance for effective SV assessment.
- Abstract(参考訳): 背景: SV(Software Vulnerability)アセスメントは、SVの増大するボリュームと複雑さに対処するために、ますます採用されています。
データ駆動型アプローチは、SVアセスメントタスクの自動化、特にエクスプロイラビリティや影響、深刻度といったCVSS(Common Vulnerability Scoring System)メトリクスの予測に広く使用されている。
SVアセスメントはCVSSクラスの不均衡分布に悩まされているが、そのようなデータ不均衡はほとんど理解されておらず、文献で対処されている。
Aims: データ不均衡の影響を定量化し,データ拡張によるSV評価の問題を軽減するため,大規模な研究を行っている。
方法: CVSSメトリクスのクラス分布のバランスをとるために, 9つのデータ拡張手法を利用する。
次に、SVアセスメントモデルの性能を、拡張データを活用することなく比較する。
結果:180k以上の実世界のSVに対する広範な実験により,データ不均衡を緩和することで,すべてのCVSSタスクにおけるモデルの予測性能が,マシューズ相関係数において最大31.8%向上することを示した。
また、ランダムなテキスト挿入、削除、置換といった単純なテキスト拡張は、ボード全体のベースラインよりも優れていることもわかりました。
結論:本研究は,効果的なSV評価のためのデータ不均衡に取り組むためのモチベーションと最初の有望なステップを提供する。
関連論文リスト
- Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Software Vulnerability Prediction in Low-Resource Languages: An Empirical Study of CodeBERT and ChatGPT [0.0]
我々は,新興言語におけるSVデータの不足が最先端のSV予測モデルに与える影響を評価するための実証的研究を行った。
我々は,関数レベルのSV予測とラインレベルのSV予測のためのデータサンプリング技術を用いて,CodeBERTに基づく最先端モデルの訓練と試験を行う。
論文 参考訳(メタデータ) (2024-04-26T01:57:12Z) - Are Latent Vulnerabilities Hidden Gems for Software Vulnerability
Prediction? An Empirical Study [4.830367174383139]
潜伏脆弱な関数は、平均でSVの数を4倍増やし、5kの誤ラベル関数を修正できる。
ノイズにもかかわらず、最先端のSV予測モデルがそのような潜伏SVの利点を大いに享受できることが示される。
論文 参考訳(メタデータ) (2024-01-20T03:36:01Z) - Which Augmentation Should I Use? An Empirical Investigation of Augmentations for Self-Supervised Phonocardiogram Representation Learning [5.438725298163702]
Contrastive Self-Supervised Learning (SSL)はラベル付きデータの不足に対する潜在的な解決策を提供する。
1次元心電図(PCG)分類におけるコントラスト学習の最適化を提案する。
トレーニング分布によっては、完全教師付きモデルの有効性が最大32%低下し、SSLモデルは最大10%低下し、場合によっては改善される。
論文 参考訳(メタデータ) (2023-12-01T11:06:00Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - DSV: An Alignment Validation Loss for Self-supervised Outlier Model
Selection [23.253175824487652]
自己教師付き学習(SSL)は、内部の監視信号を生成することで様々な問題を解決するのに有効であることが証明されている。
真のラベルを取得するための高いコストに直面している教師なしの異常検出は、SSLの大きな恩恵を受けることができる領域である。
DSV(Discordance and Separability Validation)は,有効拡張HPを用いた高性能検出モデルを選択するための教師なし検証損失である。
論文 参考訳(メタデータ) (2023-07-13T02:45:29Z) - On the Use of Fine-grained Vulnerable Code Statements for Software
Vulnerability Assessment Models [0.0]
実世界の200のプロジェクトで429のSVの1,782の関数から得られた大規模データを用いて,関数レベルのSVアセスメントタスクのための機械学習モデルを開発した。
脆弱な文のサイズは5.8倍小さいが、7.5-114.5%以上の評価性能を示す。
論文 参考訳(メタデータ) (2022-03-16T06:29:40Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。