論文の概要: SEDAC: A CVAE-Based Data Augmentation Method for Security Bug Report
Identification
- arxiv url: http://arxiv.org/abs/2401.12060v1
- Date: Mon, 22 Jan 2024 15:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:38:09.897551
- Title: SEDAC: A CVAE-Based Data Augmentation Method for Security Bug Report
Identification
- Title(参考訳): SEDAC:セキュリティバグレポート識別のためのCVAEベースのデータ拡張手法
- Authors: Y. Liao, T. Zhang
- Abstract要約: 現実の世界では、セキュリティバグ報告の割合は極めて低い。
SEDACは、同様のバグレポートベクターを生成する新しいSBR識別方法である。
g測定の基準線は14.24%から50.10%の改善で上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bug tracking systems store many bug reports, some of which are related to
security. Identifying those security bug reports (SBRs) may help us predict
some security-related bugs and solve security issues promptly so that the
project can avoid threats and attacks. However, in the real world, the ratio of
security bug reports is severely low; thus, directly training a prediction
model with raw data may result in inaccurate results. Faced with the massive
challenge of data imbalance, many researchers in the past have attempted to use
text filtering or clustering methods to minimize the proportion of non-security
bug reports (NSBRs) or apply oversampling methods to synthesize SBRs to make
the dataset as balanced as possible. Nevertheless, there are still two
challenges to those methods: 1) They ignore long-distance contextual
information. 2) They fail to generate an utterly balanced dataset. To tackle
these two challenges, we propose SEDAC, a new SBR identification method that
generates similar bug report vectors to solve data imbalance problems and
accurately detect security bug reports. Unlike previous studies, it first
converts bug reports into individual bug report vectors with distilBERT, which
are based on word2vec. Then, it trains a generative model through conditional
variational auto-encoder (CVAE) to generate similar vectors with security
labels, which makes the number of SBRs equal to NSBRs'. Finally, balanced data
are used to train a security bug report classifier. To evaluate the
effectiveness of our framework, we conduct it on 45,940 bug reports from
Chromium and four Apache projects. The experimental results show that SEDAC
outperforms all the baselines in g-measure with improvements of around
14.24%-50.10%.
- Abstract(参考訳): バグトラッキングシステムは多数のバグレポートを格納しており、その一部はセキュリティに関するものである。
これらのセキュリティバグレポート(SBR)を識別することは、セキュリティ関連のバグを予測し、セキュリティ上の問題を迅速に解決し、プロジェクトが脅威や攻撃を避けるのに役立ちます。
しかし,実世界では,セキュリティバグ報告の割合は極めて低いため,生データによる予測モデルを直接トレーニングすることで,不正確な結果が得られる可能性がある。
データ不均衡という大きな課題に直面した多くの研究者は、テキストフィルタリングやクラスタリング手法を使用して、非セキュリティバグレポート(NSBR)の割合を最小化したり、SBRを合成するためにオーバーサンプリング手法を適用して、可能な限りバランスをとろうとしてきた。
それでも、これらの方法にはまだ2つの課題がある。
1)長距離文脈情報を無視する。
2) 完全にバランスの取れたデータセットを生成できない。
この2つの課題に対処するため、SEDACは、類似のバグレポートベクトルを生成し、データの不均衡を解消し、セキュリティバグレポートを正確に検出する新しいSBR識別手法を提案する。
従来の研究とは異なり、まずバグレポートを、Word2vecをベースにした distilBERT で個々のバグレポートベクターに変換する。
次に、条件付き変分オートエンコーダ(CVAE)を用いて生成モデルをトレーニングし、セキュリティラベルと類似したベクトルを生成し、SBRの数をNSBRと等しくする。
最後に、バランスの取れたデータはセキュリティバグレポート分類器のトレーニングに使用される。
フレームワークの有効性を評価するため、Chromiumと4つのApacheプロジェクトから45,940のバグレポートを作成しました。
実験の結果、SEDACは、約14.24%-50.10%の改善により、g測定におけるすべてのベースラインより優れていた。
関連論文リスト
- Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - A Comparative Study of Text Embedding Models for Semantic Text
Similarity in Bug Reports [0.0]
既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。
我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルについて検討した。
本研究は, 類似のバグレポートを検索するための埋め込み手法の有効性について考察し, 適切なバグレポートを選択することの影響を明らかにする。
論文 参考訳(メタデータ) (2023-08-17T21:36:56Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Infrared: A Meta Bug Detector [10.541969253100815]
我々はメタバグ検出と呼ばれる新しいアプローチを提案し、既存の学習ベースのバグ検出よりも3つの重要な利点を提供している。
我々のメタバグ検出装置(MBD)は,ヌルポインタの参照,配列インデックスのアウト・オブ・バウンド,ファイルハンドルのリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグの発見に有効であることを示す。
論文 参考訳(メタデータ) (2022-09-18T09:08:51Z) - Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。
提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文 参考訳(メタデータ) (2022-08-02T06:44:51Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Early Detection of Security-Relevant Bug Reports using Machine Learning:
How Far Are We? [6.438136820117887]
典型的なメンテナンスシナリオでは、セキュリティ関連バグレポートは、修正パッチを作成する際に開発チームによって優先される。
オープンなセキュリティ関連バグレポートは、攻撃者がゼロデイ攻撃を実行するために活用できる機密情報の重大な漏洩になる可能性がある。
近年,機械学習に基づくセキュリティ関連バグレポートの検出手法が,有望な性能で報告されている。
論文 参考訳(メタデータ) (2021-12-19T11:30:29Z) - Learning Stable Classifiers by Transferring Unstable Features [59.06169363181417]
本研究では,素早い相関関係の存在下での伝達学習について検討する。
提案手法は, ソースタスクで学習した安定な特徴抽出器を直接転送しても, 対象タスクのバイアスを排除できないことを実験的に実証する。
我々は、ソースタスクの不安定な特徴とターゲットタスクの不安定な特徴が直接関連していると仮定する。
論文 参考訳(メタデータ) (2021-06-15T02:41:12Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。