Fugu-MT 論文翻訳(概要): D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis

論文の概要: D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis

arxiv url: http://arxiv.org/abs/2102.07995v1
Date: Tue, 16 Feb 2021 07:46:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 15:12:36.282368
Title: D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis
Title（参考訳）: D2A: 微分解析を用いたAIベースの脆弱性検出のためのデータセット
Authors: Yunhui Zheng, Saurabh Pujar, Burn Lewis, Luca Buratti, Edward Epstein, Bo Yang, Jim Laredo, Alessandro Morari, Zhong Su
Abstract要約: 静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
参考スコア（独自算出の注目度）: 55.15995704119158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Static analysis tools are widely used for vulnerability detection as they understand programs with complex behavior and millions of lines of code. Despite their popularity, static analysis tools are known to generate an excess of false positives. The recent ability of Machine Learning models to understand programming languages opens new possibilities when applied to static analysis. However, existing datasets to train models for vulnerability identification suffer from multiple limitations such as limited bug context, limited size, and synthetic and unrealistic source code. We propose D2A, a differential analysis based approach to label issues reported by static analysis tools. The D2A dataset is built by analyzing version pairs from multiple open source projects. From each project, we select bug fixing commits and we run static analysis on the versions before and after such commits. If some issues detected in a before-commit version disappear in the corresponding after-commit version, they are very likely to be real bugs that got fixed by the commit. We use D2A to generate a large labeled dataset to train models for vulnerability identification. We show that the dataset can be used to build a classifier to identify possible false alarms among the issues reported by static analysis, hence helping developers prioritize and investigate potential true positives first.
Abstract（参考訳）: 静的解析ツールは、複雑な振る舞いと数百万行のコードを持つプログラムを理解するため、脆弱性検出に広く利用されている。その人気にもかかわらず、静的解析ツールは偽陽性を過剰に生成することが知られている。最近の機械学習モデルがプログラミング言語を理解する能力は、静的解析に適用する新しい可能性を開く。しかしながら、脆弱性識別のためのモデルをトレーニングする既存のデータセットは、バグコンテキストの制限、サイズの制限、合成および非現実的なソースコードなど、複数の制限に悩まされている。静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 d2aデータセットは、複数のオープンソースプロジェクトのバージョンペアを分析することで構築される。各プロジェクトからバグ修正コミットを選択し、コミット前後のバージョンで静的解析を実行します。 before-commitバージョンで検出されたいくつかの問題が対応するafter-commitバージョンで消えた場合、コミットによって修正された本当のバグである可能性が高い。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。データセットは、静的解析によって報告された問題の中で考えられる誤報を識別する分類器を構築するために使用できるため、開発者がまず真正の可能性を優先順位付けし、調査するのに役立つ。

関連論文リスト

Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
The Hitchhiker's Guide to Program Analysis, Part II: Deep Thoughts by LLMs [17.497629884237647]
BugLensは、バグ検出のための静的解析精度を大幅に向上させる、ポストリファインメントフレームワークである。 LLMは有望なコード理解能力を示すが、プログラム分析への直接の応用は信頼できない。 LLMは、セキュリティへの影響を評価し、ソースコードから制約を検証するため、構造化された推論ステップを通じてLLMをガイドする。
論文参考訳（メタデータ） (2025-04-16T02:17:06Z)
GitBugs: Bug Reports for Duplicate Detection, Retrieval Augmented Generation, Triage, and More [0.0]
私たちはGitBugsを紹介します。9つのアクティブにメンテナンスされているオープンソースプロジェクトから15万以上のバグレポートを収集し、簡潔で最新のデータセットです。 GitBugsはGithub、Bugzilla、Jiraのイシュートラッカからのデータを集約し、分類タスクの標準化されたカテゴリフィールドを提供する。予報分析ノートや、重複率や解像度時間などの詳細なプロジェクトレベルの統計情報が含まれている。
論文参考訳（メタデータ） (2025-04-13T16:55:28Z)
KNighter: Transforming Static Analysis with LLM-Synthesized Checkers [14.02595288424478]
KNighterは多様なバグパターンを検出することができる高精度チェッカーを生成する。これまでに、KNighterの合成チェッカーは、Linuxカーネルに92の新しい、クリティカルで、長期間のバグを発見した。
論文参考訳（メタデータ） (2025-03-12T02:30:19Z)
Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。 BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文参考訳（メタデータ） (2024-07-10T18:00:54Z)
The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models [18.026567399243]
大規模言語モデル(LLM)は静的解析に代わる有望な選択肢を提供する。本稿では,LLM支援静的解析のオープン空間を深く掘り下げる。 LLiftは,静的解析ツールとLLMの両方を併用した,完全に自動化されたフレームワークである。
論文参考訳（メタデータ） (2023-08-01T02:57:43Z)
Cross Version Defect Prediction with Class Dependency Embeddings [17.110933073074584]
欠陥の予測にはクラス依存性ネットワーク(CDN)を使用し、静的コードメトリクスと組み合わせています。本手法では,手動でメトリクスを構築することなくCDN情報を活用するために,ネットワーク埋め込み技術を用いている。
論文参考訳（メタデータ） (2022-12-29T18:24:39Z)
GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。 GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文参考訳（メタデータ） (2022-07-06T06:26:17Z)
Learning to Reduce False Positives in Analytic Bug Detectors [12.733531603080674]
偽陽性のバグ警告を識別するためのトランスフォーマーに基づく学習手法を提案する。我々は,静的解析の精度を17.5%向上させることができることを示した。
論文参考訳（メタデータ） (2022-03-08T04:26:26Z)
Detecting Security Fixes in Open-Source Repositories using Static Code Analyzers [8.716427214870459]
機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。埋め込みの構築やMLモデルをトレーニングして、脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。当社のメソッドとcommit2vecの組み合わせは,脆弱性を修正するコミットの自動識別において,最先端技術よりも明確な改善であることがわかった。
論文参考訳（メタデータ） (2021-05-07T15:57:17Z)
Assessing Validity of Static Analysis Warnings using Ensemble Learning [4.05739885420409]
静的分析(SA)ツールは、コードの潜在的な弱点を特定し、事前に修正するために使われ、コードが開発中である。これらのルールベースの静的解析ツールは一般的に、実際のものとともに多くの誤った警告を報告します。機械学習(ML)ベースの学習プロセスを提案し、ソースコード、履歴コミットデータ、および分類器アンサンブルを使用してTrue警告を優先します。
論文参考訳（メタデータ） (2021-04-21T19:39:20Z)
Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文参考訳（メタデータ） (2021-04-12T06:57:36Z)
Robust and Transferable Anomaly Detection in Log Data using Pre-Trained Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-02-23T09:17:05Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。