論文の概要: D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis
- arxiv url: http://arxiv.org/abs/2102.07995v1
- Date: Tue, 16 Feb 2021 07:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:12:36.282368
- Title: D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis
- Title(参考訳): D2A: 微分解析を用いたAIベースの脆弱性検出のためのデータセット
- Authors: Yunhui Zheng, Saurabh Pujar, Burn Lewis, Luca Buratti, Edward Epstein,
Bo Yang, Jim Laredo, Alessandro Morari, Zhong Su
- Abstract要約: 静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 55.15995704119158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static analysis tools are widely used for vulnerability detection as they
understand programs with complex behavior and millions of lines of code.
Despite their popularity, static analysis tools are known to generate an excess
of false positives. The recent ability of Machine Learning models to understand
programming languages opens new possibilities when applied to static analysis.
However, existing datasets to train models for vulnerability identification
suffer from multiple limitations such as limited bug context, limited size, and
synthetic and unrealistic source code. We propose D2A, a differential analysis
based approach to label issues reported by static analysis tools. The D2A
dataset is built by analyzing version pairs from multiple open source projects.
From each project, we select bug fixing commits and we run static analysis on
the versions before and after such commits. If some issues detected in a
before-commit version disappear in the corresponding after-commit version, they
are very likely to be real bugs that got fixed by the commit. We use D2A to
generate a large labeled dataset to train models for vulnerability
identification. We show that the dataset can be used to build a classifier to
identify possible false alarms among the issues reported by static analysis,
hence helping developers prioritize and investigate potential true positives
first.
- Abstract(参考訳): 静的解析ツールは、複雑な振る舞いと数百万行のコードを持つプログラムを理解するため、脆弱性検出に広く利用されている。
その人気にもかかわらず、静的解析ツールは偽陽性を過剰に生成することが知られている。
最近の機械学習モデルがプログラミング言語を理解する能力は、静的解析に適用する新しい可能性を開く。
しかしながら、脆弱性識別のためのモデルをトレーニングする既存のデータセットは、バグコンテキストの制限、サイズの制限、合成および非現実的なソースコードなど、複数の制限に悩まされている。
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
d2aデータセットは、複数のオープンソースプロジェクトのバージョンペアを分析することで構築される。
各プロジェクトからバグ修正コミットを選択し、コミット前後のバージョンで静的解析を実行します。
before-commitバージョンで検出されたいくつかの問題が対応するafter-commitバージョンで消えた場合、コミットによって修正された本当のバグである可能性が高い。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
データセットは、静的解析によって報告された問題の中で考えられる誤報を識別する分類器を構築するために使用できるため、開発者がまず真正の可能性を優先順位付けし、調査するのに役立つ。
関連論文リスト
- Cross Version Defect Prediction with Class Dependency Embeddings [17.110933073074584]
欠陥の予測にはクラス依存性ネットワーク(CDN)を使用し、静的コードメトリクスと組み合わせています。
本手法では,手動でメトリクスを構築することなくCDN情報を活用するために,ネットワーク埋め込み技術を用いている。
論文 参考訳(メタデータ) (2022-12-29T18:24:39Z) - Learning to Reduce False Positives in Analytic Bug Detectors [12.733531603080674]
偽陽性のバグ警告を識別するためのトランスフォーマーに基づく学習手法を提案する。
我々は,静的解析の精度を17.5%向上させることができることを示した。
論文 参考訳(メタデータ) (2022-03-08T04:26:26Z) - Bayesian Autoencoders: Analysing and Fixing the Bernoulli likelihood for
Out-of-Distribution Detection [71.05708939639538]
オートエンコーダが1つのデータセットを再構築することを学ぶと、アウト・オブ・ディストリビューション(OOD)入力の確率が低いことが期待できる。
最近の研究は、データセットペアのFashionMNIST対MNISTでこの直感的なアプローチが失敗することを示した。
本稿は、ベルヌーイ確率の使用と、これがなぜそうなるのかの分析によるものであることを示唆する。
論文 参考訳(メタデータ) (2021-07-28T11:51:35Z) - Detecting Security Fixes in Open-Source Repositories using Static Code
Analyzers [8.716427214870459]
機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。
埋め込みの構築やMLモデルをトレーニングして、脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。
当社のメソッドとcommit2vecの組み合わせは,脆弱性を修正するコミットの自動識別において,最先端技術よりも明確な改善であることがわかった。
論文 参考訳(メタデータ) (2021-05-07T15:57:17Z) - Assessing Validity of Static Analysis Warnings using Ensemble Learning [4.05739885420409]
静的分析(SA)ツールは、コードの潜在的な弱点を特定し、事前に修正するために使われ、コードが開発中である。
これらのルールベースの静的解析ツールは一般的に、実際のものとともに多くの誤った警告を報告します。
機械学習(ML)ベースの学習プロセスを提案し、ソースコード、履歴コミットデータ、および分類器アンサンブルを使用してTrue警告を優先します。
論文 参考訳(メタデータ) (2021-04-21T19:39:20Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - TIDE: A General Toolbox for Identifying Object Detection Errors [28.83233218686898]
本稿では、オブジェクト検出とインスタンス分割アルゴリズムにおけるエラーの原因を分析するためのフレームワークおよび関連するツールボックスであるTIDEを紹介する。
我々のフレームワークはデータセットにまたがって適用でき、基盤となる予測システムに関する知識を必要とせずに、直接予測ファイルを出力することができる。
論文 参考訳(メタデータ) (2020-08-18T18:30:53Z) - Frustratingly Simple Few-Shot Object Detection [98.42824677627581]
希少なクラスにおける既存検出器の最後の層のみを微調整することは、数発の物体検出タスクに不可欠である。
このような単純なアプローチは、現在のベンチマークで約220ポイントのメタ学習方法より優れている。
論文 参考訳(メタデータ) (2020-03-16T00:29:14Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。