論文の概要: BinPool: A Dataset of Vulnerabilities for Binary Security Analysis
- arxiv url: http://arxiv.org/abs/2504.19055v1
- Date: Sun, 27 Apr 2025 00:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.110499
- Title: BinPool: A Dataset of Vulnerabilities for Binary Security Analysis
- Title(参考訳): BinPool: バイナリセキュリティ分析のための脆弱性データセット
- Authors: Sima Arasteh, Georgios Nikitopoulos, Wei-Cheng Wu, Nicolaas Weideman, Aaron Portnoy, Mukund Raghothaman, Christophe Hauser,
- Abstract要約: 理想的なデータセットは、各プログラムの脆弱性バージョンとパッチバージョンの両方を含むようにペアリングされた、多種多様な現実世界の脆弱性のコレクションで構成されている。
以前のデータセットは公開されていないか、セマンティックな多様性がないか、人工的に導入された脆弱性を含むか、静的アナライザを使用して収集された。
本稿では,Debianパッケージの脆弱性バージョンを多数含むBinpoolという,新たに公開されたデータセットについて述べる。
- 参考スコア(独自算出の注目度): 5.423608359320192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of machine learning techniques for discovering software vulnerabilities relies fundamentally on the availability of appropriate datasets. The ideal dataset consists of a large and diverse collection of real-world vulnerabilities, paired so as to contain both vulnerable and patched versions of each program. Naturally, collecting such datasets is a laborious and time-consuming task. Within the specific domain of vulnerability discovery in binary code, previous datasets are either publicly unavailable, lack semantic diversity, involve artificially introduced vulnerabilities, or were collected using static analyzers, thereby themselves containing incorrectly labeled example programs. In this paper, we describe a new publicly available dataset which we dubbed Binpool, containing numerous samples of vulnerable versions of Debian packages across the years. The dataset was automatically curated, and contains both vulnerable and patched versions of each program, compiled at four different optimization levels. Overall, the dataset covers 603 distinct CVEs across 89 CWE classes, 162 Debian packages, and contains 6144 binaries. We argue that this dataset is suitable for evaluating a range of security analysis tools, including for vulnerability discovery, binary function similarity, and plagiarism detection.
- Abstract(参考訳): ソフトウェア脆弱性を発見するための機械学習技術の開発は、基本的に適切なデータセットの可用性に依存している。
理想的なデータセットは、各プログラムの脆弱性バージョンとパッチバージョンの両方を含むようにペアリングされた、多種多様な現実世界の脆弱性のコレクションで構成されている。
当然、このようなデータセットの収集は手間と時間を要する作業である。
バイナリコードの特定の脆弱性発見領域内では、以前のデータセットは公開されていないか、セマンティックな多様性がないか、人工的に導入された脆弱性を含むか、あるいは静的アナライザを使用して収集された。
本稿では,Binpoolと呼ばれる新しい公開データセットについて述べる。
データセットは自動的にキュレーションされ、各プログラムの脆弱性バージョンとパッチバージョンの両方が含まれ、4つの異なる最適化レベルでコンパイルされる。
データセットは、89のCWEクラス、162のDebianパッケージ、6144のバイナリを含む603の異なるCVEをカバーする。
このデータセットは、脆弱性発見、バイナリ関数の類似性、盗作検出など、さまざまなセキュリティ分析ツールの評価に適している、と我々は主張する。
関連論文リスト
- A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。
ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文 参考訳(メタデータ) (2025-03-10T12:27:05Z) - Fine-Grained 1-Day Vulnerability Detection in Binaries via Patch Code Localization [12.73365645156957]
バイナリの1日間の脆弱性は、ソフトウェアセキュリティに対する大きな脅威になっている。
パッチの有無テストは 脆弱性を検出する効果的な方法の1つです
パッチコードとそのコンテキストから安定な値を利用するPLocatorという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:35:37Z) - CveBinarySheet: A Comprehensive Pre-built Binaries Database for IoT Vulnerability Analysis [0.0]
CveBinarySheetは1999年から2024年までの1033のCVEエントリを含むデータベースである。
私たちのデータセットは16の重要なサードパーティコンポーネントで構成されています。
各プリコンパイルされたバイナリは2つのコンパイラ最適化レベル(O0とO3)で利用でき、異なるコンパイルシナリオ下で包括的な脆弱性分析を容易にする。
論文 参考訳(メタデータ) (2025-01-15T14:50:46Z) - OSPtrack: A Labeled Dataset Targeting Simulated Execution of Open-Source Software [0.0]
このデータセットには9,461のパッケージレポートが含まれており、そのうち1,962が悪意のあるものである。
データセットには、ファイル、ソケット、コマンド、DNSレコードなどの静的および動的機能が含まれている。
このデータセットは実行時検出をサポートし、検出モデルトレーニングを強化し、エコシステム間の効率的な比較分析を可能にする。
論文 参考訳(メタデータ) (2024-11-22T10:07:42Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z) - REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。
脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。
大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T02:50:08Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - CVEfixes: Automated Collection of Vulnerabilities and Their Fixes from
Open-Source Software [0.0]
完全に自動化されたデータセット収集ツールを実装し、CVEfixesという脆弱性データセットの初期リリースを共有します。
データセットには、プログラミング言語などのメタデータと、5つの抽象化レベルにおける詳細なコードとセキュリティメトリクスが組み込まれている。
CVEfixesは、脆弱性予測、脆弱性分類、脆弱性重大度予測、脆弱性関連コード変更の分析、自動脆弱性修正など、さまざまなタイプのデータ駆動型ソフトウェアセキュリティ研究をサポートしている。
論文 参考訳(メタデータ) (2021-07-19T11:34:09Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z) - Neural Ensemble Search for Uncertainty Estimation and Dataset Shift [67.57720300323928]
ニューラルネットワークのアンサンブルは、データセットシフトに対する精度、不確実性キャリブレーション、堅牢性の観点から、スタンドアロンネットワークよりも優れたパフォーマンスを実現する。
本稿では,アンサンブルをアンサンブルで自動構築する2つの手法を提案する。
得られたアンサンブルは、精度だけでなく、不確実なキャリブレーションやデータセットシフトに対する堅牢性の観点からも、深いアンサンブルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-15T17:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。