論文の概要: Leveraging Self-Paced Learning for Software Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2511.09212v1
- Date: Thu, 13 Nov 2025 01:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.46665
- Title: Leveraging Self-Paced Learning for Software Vulnerability Detection
- Title(参考訳): ソフトウェア脆弱性検出のための自己更新学習の活用
- Authors: Zeru Cheng, Yanjing Yang, He Zhang, Lanxin Yang, Jinghao Hu, Jinwei Xu, Bohan Liu, Haifeng Shen,
- Abstract要約: SPLVDは、トレーニングの段階に基づいて、モデルトレーニングのためのソースコードを動的に選択する。
SPLVDには、脆弱性検出タスク用に特別に設計されたデータセレクタがある。
- 参考スコア(独自算出の注目度): 8.8465644651012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software vulnerabilities are major risks to software systems. Recently, researchers have proposed many deep learning approaches to detect software vulnerabilities. However, their accuracy is limited in practice. One of the main causes is low-quality training data (i.e., source code). To this end, we propose a new approach: SPLVD (Self-Paced Learning for Software Vulnerability Detection). SPLVD dynamically selects source code for model training based on the stage of training, which simulates the human learning process progressing from easy to hard. SPLVD has a data selector that is specifically designed for the vulnerability detection task, which enables it to prioritize the learning of easy source code. Before each training epoch, SPLVD uses the data selector to recalculate the difficulty of the source code, select new training source code, and update the data selector. When evaluating SPLVD, we first use three benchmark datasets with over 239K source code in which 25K are vulnerable for standard evaluations. Experimental results demonstrate that SPLVD achieves the highest F1 of 89.2%, 68.7%, and 43.5%, respectively, outperforming the state-of-the-art approaches. Then we collect projects from OpenHarmony, a new ecosystem that has not been learned by general LLMs, to evaluate SPLVD further. SPLVD achieves the highest precision of 90.9%, demonstrating its practical effectiveness.
- Abstract(参考訳): ソフトウェア脆弱性は、ソフトウェアシステムにとって大きなリスクである。
近年、ソフトウェア脆弱性を検出するための多くのディープラーニングアプローチが提案されている。
しかし、実際には精度は限られている。
主な原因の1つは、低品質のトレーニングデータ(ソースコード)である。
そこで我々は,SPLVD (Self-Paced Learning for Software Vulnerability Detection) という新しい手法を提案する。
SPLVDは、トレーニングの段階に基づいて、モデルトレーニングのためのソースコードを動的に選択する。
SPLVDには、脆弱性検出タスク用に特別に設計されたデータセレクタがあり、容易なソースコードの学習を優先することができる。
各トレーニングエポックの前に、SPLVDは、データセレクタを使用して、ソースコードの難易度を再計算し、新しいトレーニングソースコードを選択し、データセレクタを更新する。
SPLVDを評価する際、まず239K以上のソースコードを持つ3つのベンチマークデータセットを使用し、25Kは標準評価に脆弱である。
実験の結果、SPLVDは89.2%、68.7%、43.5%の最高F1を達成し、最先端のアプローチよりも優れていることが示された。
次に、一般のLLMから学ばない新しいエコシステムであるOpenHarmonyからプロジェクトを収集し、SPLVDをさらに評価します。
SPLVDは90.9%の精度を達成し、実用性を示している。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Deep Learning-Based Out-of-distribution Source Code Data Identification: How Far Have We Gone? [23.962076093344166]
我々は,OODソースコードデータ識別問題に対処する革新的なディープラーニングベースのアプローチを提案する。
本手法は,革新的なクラスタコントラスト学習を用いて情報理論的な視点から導出する。
提案手法は,FPR,AUROC,AUPRでそれぞれ約15.27%,7.39%,4.93%の成績を示した。
論文 参考訳(メタデータ) (2024-04-09T02:52:55Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM [60.575435353047304]
我々は、高密度ニューラルネットワークの同時局所化とマッピング(SLAM)のための不確実性学習フレームワークを提案する。
本稿では,2次元入力データのみから自己教師付きで学習可能なセンサ不確実性推定のためのオンラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T16:26:25Z) - DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based
Vulnerability Detection [29.52887618905746]
このデータセットには、150のCWEにまたがる18,945の脆弱性関数と、7,514のコミットから抽出された330,492の非脆弱性関数が含まれている。
以上の結果から,高い偽陽性率,低いF1スコア,難解なCWEの検出が困難であったため,ディープラーニングは依然として脆弱性検出の準備が整っていないことが示唆された。
大規模言語モデル(LLM)はMLベースの脆弱性検出において有望な研究方向であり,コード構造を持つグラフニューラルネットワーク(GNN)よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-01T23:29:14Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Security Vulnerability Detection Using Deep Learning Natural Language
Processing [1.4591078795663772]
ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化する。
トレーニングとテストのために、123タイプの脆弱性を持つ$C$プログラミング言語で10000以上のファイルのデータセットを構築しました。
実験は、セキュリティ脆弱性の検出において93%以上の精度で最高のパフォーマンスを生み出します。
論文 参考訳(メタデータ) (2021-05-06T01:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。