論文の概要: A Study on Mixup-Inspired Augmentation Methods for Software Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2504.15632v3
- Date: Sat, 26 Apr 2025 21:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.776137
- Title: A Study on Mixup-Inspired Augmentation Methods for Software Vulnerability Detection
- Title(参考訳): ソフトウェア脆弱性検出のための混合型拡張法の検討
- Authors: Seyed Shayan Daneshvar, Da Tan, Shaowei Wang, Carson Leung,
- Abstract要約: 我々は、データの埋め込みを増強する5つの拡張手法を実装し、評価し、最近コード検索に利用した。
このような拡張手法は有効であり、F1スコアを最大9.67%向上させることができるが、データセットのバランスをとるとランダムオーバーサンプリングに勝てない。
- 参考スコア(独自算出の注目度): 4.7525025776271725
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Various deep learning (DL) methods have recently been utilized to detect software vulnerabilities. Real-world software vulnerability datasets are rare and hard to acquire, as there is no simple metric for classifying vulnerability. Such datasets are heavily imbalanced, and none of the current datasets are considered huge for DL models. To tackle these problems, a recent work has tried to augment the dataset using the source code and generate realistic single-statement vulnerabilities, which is not quite practical and requires manual checking of the generated vulnerabilities. In this paper, we aim to explore the augmentation of vulnerabilities at the representation level to help current models learn better, which has never been done before to the best of our knowledge. We implement and evaluate five augmentation techniques that augment the embedding of the data and have recently been used for code search, which is a completely different software engineering task. We also introduced a conditioned version of those augmentation methods, which ensures the augmentation does not change the vulnerable section of the vector representation. We show that such augmentation methods can be helpful and increase the F1-score by up to 9.67%, yet they cannot beat Random Oversampling when balancing datasets, which increases the F1-score by 10.82%.
- Abstract(参考訳): 近年,ソフトウェア脆弱性の検出に様々なディープラーニング(DL)手法が用いられている。
実際のソフトウェア脆弱性データセットはまれで、脆弱性を分類するための単純な指標がないため、取得は困難である。
このようなデータセットは非常に不均衡であり、現在のデータセットはいずれもDLモデルにとって大きなものではないと考えられている。
これらの問題に対処するため、最近の研究は、ソースコードを使用してデータセットを拡張し、現実的な単一ステートメントの脆弱性を生成しようと試みている。
本稿では,現在のモデルの学習を支援するために,表現レベルでの脆弱性の増大を探究する。
我々は、データの埋め込みを増強する5つの拡張手法を実装して評価し、最近は、全く異なるソフトウェアエンジニアリングタスクであるコード検索に使われている。
また,これらの拡張手法の条件付きバージョンを導入し,ベクトル表現の脆弱な部分を変えないようにした。
このような拡張手法は、F1スコアを最大9.67%向上させることができるが、データセットのバランスをとるとランダムオーバーサンプリングに勝てず、F1スコアを10.82%向上させる。
関連論文リスト
- Challenging Machine Learning Algorithms in Predicting Vulnerable JavaScript Functions [2.243674903279612]
最先端の機械学習技術は、JavaScriptプログラムのセキュリティ脆弱性のある関数を予測することができる。
最高性能のアルゴリズムはKNNで、F値0.76の脆弱性関数の予測モデルを作成している。
深層学習,木と林の分類,SVMは0.70以上のF尺度と競合した。
論文 参考訳(メタデータ) (2024-05-12T08:23:42Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability
Detection [17.761541379830373]
DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。
最高性能のベースラインモデルより75倍速く、9分で訓練された。
平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
論文 参考訳(メタデータ) (2022-12-15T19:49:27Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Cross Project Software Vulnerability Detection via Domain Adaptation and
Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。
これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。
提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文 参考訳(メタデータ) (2022-09-19T23:47:22Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。