論文の概要: D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis
- arxiv url: http://arxiv.org/abs/2102.07995v1
- Date: Tue, 16 Feb 2021 07:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:12:36.282368
- Title: D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis
- Title(参考訳): D2A: 微分解析を用いたAIベースの脆弱性検出のためのデータセット
- Authors: Yunhui Zheng, Saurabh Pujar, Burn Lewis, Luca Buratti, Edward Epstein,
Bo Yang, Jim Laredo, Alessandro Morari, Zhong Su
- Abstract要約: 静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 55.15995704119158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static analysis tools are widely used for vulnerability detection as they
understand programs with complex behavior and millions of lines of code.
Despite their popularity, static analysis tools are known to generate an excess
of false positives. The recent ability of Machine Learning models to understand
programming languages opens new possibilities when applied to static analysis.
However, existing datasets to train models for vulnerability identification
suffer from multiple limitations such as limited bug context, limited size, and
synthetic and unrealistic source code. We propose D2A, a differential analysis
based approach to label issues reported by static analysis tools. The D2A
dataset is built by analyzing version pairs from multiple open source projects.
From each project, we select bug fixing commits and we run static analysis on
the versions before and after such commits. If some issues detected in a
before-commit version disappear in the corresponding after-commit version, they
are very likely to be real bugs that got fixed by the commit. We use D2A to
generate a large labeled dataset to train models for vulnerability
identification. We show that the dataset can be used to build a classifier to
identify possible false alarms among the issues reported by static analysis,
hence helping developers prioritize and investigate potential true positives
first.
- Abstract(参考訳): 静的解析ツールは、複雑な振る舞いと数百万行のコードを持つプログラムを理解するため、脆弱性検出に広く利用されている。
その人気にもかかわらず、静的解析ツールは偽陽性を過剰に生成することが知られている。
最近の機械学習モデルがプログラミング言語を理解する能力は、静的解析に適用する新しい可能性を開く。
しかしながら、脆弱性識別のためのモデルをトレーニングする既存のデータセットは、バグコンテキストの制限、サイズの制限、合成および非現実的なソースコードなど、複数の制限に悩まされている。
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
d2aデータセットは、複数のオープンソースプロジェクトのバージョンペアを分析することで構築される。
各プロジェクトからバグ修正コミットを選択し、コミット前後のバージョンで静的解析を実行します。
before-commitバージョンで検出されたいくつかの問題が対応するafter-commitバージョンで消えた場合、コミットによって修正された本当のバグである可能性が高い。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
データセットは、静的解析によって報告された問題の中で考えられる誤報を識別する分類器を構築するために使用できるため、開発者がまず真正の可能性を優先順位付けし、調査するのに役立つ。
関連論文リスト
- Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - The Hitchhiker's Guide to Program Analysis: A Journey with Large
Language Models [18.026567399243]
大規模言語モデル(LLM)は静的解析に代わる有望な選択肢を提供する。
本稿では,LLM支援静的解析のオープン空間を深く掘り下げる。
LLiftは,静的解析ツールとLLMの両方を併用した,完全に自動化されたフレームワークである。
論文 参考訳(メタデータ) (2023-08-01T02:57:43Z) - Cross Version Defect Prediction with Class Dependency Embeddings [17.110933073074584]
欠陥の予測にはクラス依存性ネットワーク(CDN)を使用し、静的コードメトリクスと組み合わせています。
本手法では,手動でメトリクスを構築することなくCDN情報を活用するために,ネットワーク埋め込み技術を用いている。
論文 参考訳(メタデータ) (2022-12-29T18:24:39Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - Learning to Reduce False Positives in Analytic Bug Detectors [12.733531603080674]
偽陽性のバグ警告を識別するためのトランスフォーマーに基づく学習手法を提案する。
我々は,静的解析の精度を17.5%向上させることができることを示した。
論文 参考訳(メタデータ) (2022-03-08T04:26:26Z) - Detecting Security Fixes in Open-Source Repositories using Static Code
Analyzers [8.716427214870459]
機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。
埋め込みの構築やMLモデルをトレーニングして、脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。
当社のメソッドとcommit2vecの組み合わせは,脆弱性を修正するコミットの自動識別において,最先端技術よりも明確な改善であることがわかった。
論文 参考訳(メタデータ) (2021-05-07T15:57:17Z) - Assessing Validity of Static Analysis Warnings using Ensemble Learning [4.05739885420409]
静的分析(SA)ツールは、コードの潜在的な弱点を特定し、事前に修正するために使われ、コードが開発中である。
これらのルールベースの静的解析ツールは一般的に、実際のものとともに多くの誤った警告を報告します。
機械学習(ML)ベースの学習プロセスを提案し、ソースコード、履歴コミットデータ、および分類器アンサンブルを使用してTrue警告を優先します。
論文 参考訳(メタデータ) (2021-04-21T19:39:20Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。