Fugu-MT 論文翻訳(概要): ActiveClean: Generating Line-Level Vulnerability Data via Active Learning

論文の概要: ActiveClean: Generating Line-Level Vulnerability Data via Active Learning

arxiv url: http://arxiv.org/abs/2312.01588v1
Date: Mon, 4 Dec 2023 03:09:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 16:35:35.344734
Title: ActiveClean: Generating Line-Level Vulnerability Data via Active Learning
Title（参考訳）: ActiveClean: アクティブラーニングによるラインレベル脆弱性データの生成
Authors: Ashwin Kallingal Joshy, Mirza Sanjida Alam, Shaila Sharmin, Qi Li and Wei Le
Abstract要約: 本稿では,体系的なツール開発への取り組みと提案を行う。 ActiveCleanはコミットから大量のラインレベルの脆弱性データを生成する。 SOTAラインレベルの脆弱性検出ツールであるLineVulは、70以上の脆弱なラインと18以上の脆弱な機能を検出した。
参考スコア（独自算出の注目度）: 9.998068814293523
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning vulnerability detection tools are increasing in popularity and have been shown to be effective. These tools rely on large volume of high quality training data, which are very hard to get. Most of the currently available datasets provide function-level labels, reporting whether a function is vulnerable or not vulnerable. However, for a vulnerability detection to be useful, we need to also know the lines that are relevant to the vulnerability. This paper makes efforts towards developing systematic tools and proposes. ActiveClean to generate the large volume of line-level vulnerability data from commits. That is, in addition to function-level labels, it also reports which lines in the function are likely responsible for vulnerability detection. In the past, static analysis has been applied to clean commits to generate line-level data. Our approach based on active learning, which is easy to use and scalable, provide a complementary approach to static analysis. We designed semantic and syntactic properties from commit lines and use them to train the model. We evaluated our approach on both Java and C datasets processing more than 4.3K commits and 119K commit lines. AcitveClean achieved an F1 score between 70-74. Further, we also show that active learning is effective by using just 400 training data to reach F1 score of 70.23. Using ActiveClean, we generate the line-level labels for the entire FFMpeg project in the Devign dataset, including 5K functions, and also detected incorrect function-level labels. We demonstrated that using our cleaned data, LineVul, a SOTA line-level vulnerability detection tool, detected 70 more vulnerable lines and 18 more vulnerable functions, and improved Top 10 accuracy from 66% to 73%.
Abstract（参考訳）: ディープラーニングの脆弱性検出ツールは人気が高まっており、有効であることが示されている。これらのツールは大量の高品質なトレーニングデータに依存しており、入手は非常に困難です。現在利用可能なデータセットのほとんどは、関数レベルのラベルを提供し、関数が脆弱かどうかを報告している。しかし、脆弱性検出が有用であるためには、脆弱性に関連する行も知っておく必要がある。本稿では,体系的なツール開発への取り組みと提案を行う。 ActiveCleanはコミットから大量のラインレベルの脆弱性データを生成する。つまり、関数レベルのラベルに加えて、機能内のどのラインが脆弱性検出に責任があるかをレポートする。過去には、ラインレベルのデータを生成するためにクリーンコミットに静的解析が適用されてきた。使用が容易でスケーラブルな能動的学習に基づく我々のアプローチは、静的解析に補完的なアプローチを提供する。コミットラインからセマンティクスと構文プロパティを設計し、モデルをトレーニングするためにそれらを使用しました。我々はJavaとC両方のデータセット処理に対するアプローチを4.3Kコミットと119Kコミットラインで評価した。 AcitveCleanはF1得点を70-74で達成した。さらに,400のトレーニングデータを用いてF1スコア70.23に達することで,アクティブな学習が効果的であることを示す。 ActiveCleanを用いて、5K関数を含むDevignデータセットのFFMpegプロジェクト全体の行レベルラベルを生成し、また、誤った関数レベルラベルを検出する。我々は,SOTAラインレベルの脆弱性検出ツールであるLineVulを用いて,70以上の脆弱なラインと18以上の脆弱な機能を検出し,トップ10の精度を66%から73%に向上させた。

関連論文リスト

Explainable Vulnerability Detection in C/C++ Using Edge-Aware Graph Attention Networks [0.2499907423888049]
本稿では,C/C++コードの脆弱性検出のためのグラフベースのフレームワークであるExplainVulDを提案する。平均精度88.25パーセント、F1スコア48.23パーセントをReVealデータセット上で30の独立ランで達成している。
論文参考訳（メタデータ） (2025-07-22T12:49:14Z)
CleanVul: Automatic Function-Level Vulnerability Detection in Code Commits Using LLM Heuristics [12.053158610054911]
本稿では,Large Language Model (LLM) を用いて,VFCからの脆弱性修正変更を自動的に識別する手法を提案する。 VulSifterは大規模な調査に適用され、GitHubで127,063のリポジトリをクロールし、5,352,105のコミットを取得しました。 LLM拡張手法を用いて11,632個の関数からなる高品質なデータセットであるCleanVulを開発した。
論文参考訳（メタデータ） (2024-11-26T09:51:55Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。 XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。 6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文参考訳（メタデータ） (2023-10-09T08:07:04Z)
Hierarchical Point-based Active Learning for Semi-supervised Point Cloud Semantic Segmentation [48.40853126077237]
大規模ポイントクラウドデータをポイントワイドラベルで取得することは、労働集約的だ。アクティブラーニングは、この目的を達成するための効果的な戦略の1つだが、まだ探索されていない。本稿では,階層的なポイントベースアクティブラーニング戦略を開発する。
論文参考訳（メタデータ） (2023-08-22T03:52:05Z)
Dataflow Analysis-Inspired Deep Learning for Efficient Vulnerability Detection [17.761541379830373]
DeepDFAは、データフロー分析にインスパイアされたグラフ学習フレームワークである。最高性能のベースラインモデルより75倍速く、9分で訓練された。平均して17の脆弱性のうち8.7が検出され、パッチとバグの多いバージョンを区別することができた。
論文参考訳（メタデータ） (2022-12-15T19:49:27Z)
ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文参考訳（メタデータ） (2022-05-10T15:39:11Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文参考訳（メタデータ） (2021-06-22T16:53:09Z)
ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。 ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文参考訳（メタデータ） (2021-01-02T09:04:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。