論文の概要: Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation
- arxiv url: http://arxiv.org/abs/2410.00249v2
- Date: Thu, 3 Oct 2024 00:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:46:17.086323
- Title: Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation
- Title(参考訳): 意味保存データ拡張による脆弱性検出のための事前学習言語モデルの強化
- Authors: Weiliang Qi, Jiahao Cao, Darsh Poddar, Sophia Li, Xinda Wang,
- Abstract要約: 本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。
一連の代表的なコード事前訓練モデルの微調整に当社のデータセットを組み込むことで、最大10.1%の精度向上と23.6%のF1増加を達成することができる。
- 参考スコア(独自算出の注目度): 4.374800396968465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development and widespread use of advanced network systems, software vulnerabilities pose a significant threat to secure communications and networking. Learning-based vulnerability detection systems, particularly those leveraging pre-trained language models, have demonstrated significant potential in promptly identifying vulnerabilities in communication networks and reducing the risk of exploitation. However, the shortage of accurately labeled vulnerability datasets hinders further progress in this field. Failing to represent real-world vulnerability data variety and preserve vulnerability semantics, existing augmentation approaches provide limited or even counterproductive contributions to model training. In this paper, we propose a data augmentation technique aimed at enhancing the performance of pre-trained language models for vulnerability detection. Given the vulnerability dataset, our method performs natural semantic-preserving program transformation to generate a large volume of new samples with enriched data diversity and variety. By incorporating our augmented dataset in fine-tuning a series of representative code pre-trained models (i.e., CodeBERT, GraphCodeBERT, UnixCoder, and PDBERT), up to 10.1% increase in accuracy and 23.6% increase in F1 can be achieved in the vulnerability detection task. Comparison results also show that our proposed method can substantially outperform other prominent vulnerability augmentation approaches.
- Abstract(参考訳): 先進的なネットワークシステムの急速な開発と普及により、ソフトウェア脆弱性はセキュアな通信とネットワークに重大な脅威をもたらす。
学習に基づく脆弱性検出システム、特に事前訓練された言語モデルを活用するシステムは、通信ネットワークの脆弱性を迅速に特定し、エクスプロイトのリスクを低減する上で大きな可能性を示している。
しかし、正確なラベル付き脆弱性データセットの不足は、この分野のさらなる進歩を妨げる。
現実世界の脆弱性データの多様性を表現できず、脆弱性セマンティクスを保存できないため、既存の拡張アプローチは、モデルトレーニングに限定的あるいは反生産的な貢献を提供する。
本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。
脆弱性データセットから,本手法は自然意味保存プログラム変換を行い,豊富なデータ多様性と多様性を持つ新しいサンプルを大量に生成する。
一連の代表的なコード事前トレーニングモデル(CodeBERT、GraphCodeBERT、UnixCoder、PDBERT)の微調整に当社のデータセットを組み込むことで、脆弱性検出タスクでは10.1%の精度向上と23.6%のF1増加が達成できる。
比較の結果,提案手法は,他の顕著な脆弱性拡大手法よりも大幅に優れていることが示された。
関連論文リスト
- DFEPT: Data Flow Embedding for Enhancing Pre-Trained Model Based Vulnerability Detection [7.802093464108404]
本稿では,脆弱性検出タスクにおける事前学習モデルの性能向上を目的としたデータフロー埋め込み手法を提案する。
具体的には,関数レベルのソースコードからデータフローグラフを解析し,DFGのノード特性として変数のデータ型を使用する。
我々の研究は、DFEPTが事前訓練されたモデルに効果的な脆弱性セマンティック情報を提供し、Devignデータセットで64.97%、Revealデータセットで47.9%のF1スコアを達成できることを示している。
論文 参考訳(メタデータ) (2024-10-24T07:05:07Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation [29.72520866016839]
ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。
多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。
FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。
FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
論文 参考訳(メタデータ) (2024-04-15T09:10:52Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - V2W-BERT: A Framework for Effective Hierarchical Multiclass
Classification of Software Vulnerabilities [7.906207218788341]
本稿では,Transformer-based learning framework(V2W-BERT)を提案する。
自然言語処理,リンク予測,転送学習のアイデアを用いることで,従来の手法よりも優れる。
ランダムに分割されたデータの予測精度は最大97%、一時分割されたデータの予測精度は最大94%です。
論文 参考訳(メタデータ) (2021-02-23T05:16:57Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。