論文の概要: HackerSignal: A Large-Scale Multi-Source Dataset Linking Hacker Community Discourse to the CVE Vulnerability Lifecycle
- arxiv url: http://arxiv.org/abs/2605.03158v1
- Date: Mon, 04 May 2026 21:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.651559
- Title: HackerSignal: A Large-Scale Multi-Source Dataset Linking Hacker Community Discourse to the CVE Vulnerability Lifecycle
- Title(参考訳): HackerSignal: CVE脆弱性ライフサイクルとハッカーコミュニティの会話をリンクする大規模マルチソースデータセット
- Authors: Benjamin M. Ampel, Sagar Samtani,
- Abstract要約: HackerSignalは、時間外配布サイバー脅威インテリジェンス(CTI)とクロスソースCVEリンクのベンチマークである。
HackerSignalは、8つのソース層と36年のウィンドウにまたがる64のパブリックフォーラム/ソース識別子から745万の認証済みのドキュメントを集約する。
- 参考スコア(独自算出の注目度): 7.784381182638764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HackerSignal, a benchmark for temporal out-of-distribution cyber threat intelligence (CTI) and cross-source CVE linkage. HackerSignal aggregates 7.45 million exact-deduplicated documents from 64 public forum/source identifiers spanning eight source layers and a 36-year window (1990-2026). In contrast to other publicly accessible cybersecurity datasets, HackerSignal is among the first public benchmark datasets that maps the full potential exploit to vulnerability trajectory from hacker community discourse, exploit databases with working and proof of concept exploits, vulnerability advisories, and software fix commits. HackerSignal creates these linkages through a shared CVE identifier space while preserving source-specific release modes to support a range of unique Artificial Intelligence (AI)-enabled cybersecurity analytics tasks. In this paper, we summarize HackerSignal and illustrate three selected benchmark tasks it uniquely supports: (1) CVE linkage retrieval (cross-source temporal out-of-distribution entity grounding); (2) exploit type classification (8-class vulnerability type prediction with temporal OOD evaluation); and (3) temporal generalization (prospective CVE-disjoint evaluation where C_train and C_test are disjoint). All tasks use temporal splits to evaluate prospective generalization. We release source-shortcut and leakage diagnostics, manual-audit packets, a datasheet, and a release-governance addendum to support the dissemination of the dataset. HackerSignal's code, data, and Croissant metadata are available at hf.co/datasets/BenAmpel/HackerSignal (data) and github.com/BenAmpel/hackersignal (code).
- Abstract(参考訳): 我々は,時間外配布サイバー脅威インテリジェンス(CTI)とクロスソースCVEリンクのためのベンチマークであるHackerSignalを紹介する。
HackerSignalは、8つのソース層と36年のウィンドウ(1990-2026)にまたがる64のパブリックフォーラム/ソース識別子から745万の正確なドキュメントを集約する。
他の公開アクセス可能なサイバーセキュリティデータセットとは対照的に、HackerSignalは、ハッカーコミュニティの談話から潜在的な脆弱性の完全なエクスプロイトを抽出し、概念エクスプロイト、脆弱性アドバイザリ、ソフトウェア修正コミットの検証と証明でデータベースを悪用する、最初の公開ベンチマークデータセットである。
HackerSignalは、これらのリンクを共有CVE識別子空間を通じて生成し、ソース固有のリリースモードを保持して、さまざまな人工知能(AI)対応サイバーセキュリティ分析タスクをサポートする。
本稿では、HackerSignalを要約し、CVEリンケージ検索(クロスソースの時間的アウト・オブ・ディストリビューション・エンティティ・グラウンドディング)、タイプ分類(時間的OOD評価による8クラスの脆弱性型予測)、時間的一般化(C_trainとC_testが結合しない場合のCVE-disjoint評価)の3つの選択されたベンチマークタスクについて説明する。
全てのタスクは時間分割を使用して予測一般化を評価する。
我々は,ソースショートカットおよびリーク診断,手動監査パケット,データシート,およびデータセットの普及をサポートするためのリリースガバナンスアドオンをリリースする。
HackerSignalのコード、データ、Croissantメタデータはhf.co/datasets/BenAmpel/HackerSignal (data)とgithub.com/BenAmpel/hackersignal (code)で利用可能である。
関連論文リスト
- Towards Predicting Multi-Vulnerability Attack Chains in Software Supply Chains from Software Bill of Materials Graphs [1.628589561701473]
本稿では,新しいSBOMによるグラフ学習手法を用いて,マルチハザーバビリティアタックチェーンの学習に基づく新たな研究方向を提案する。
これにより、SBOM構造とスキャナ出力を、フラットな脆弱性リストではなく、依存性に制約のあるエビデンスグラフとして扱う。
我々は、コンポーネントが少なくとも1つの既知の脆弱性と関連付けられているかどうかを予測するために、異種グラフ注意ネットワーク(HGAT)を訓練する。
我々は、脆弱性の発見を、文書化されたマルチハザーバビリティチェーンでトレーニングされた軽量Multi-Layer Perceptron(MLP)ニューラルネットワークを用いて、CVE-Pairリンク予測として表している。
論文 参考訳(メタデータ) (2026-04-04T17:29:39Z) - Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - PoCGen: Generating Proof-of-Concept Exploits for Vulnerabilities in Npm Packages [13.877936187495555]
我々は,npmパッケージの脆弱性に対するPoCエクスプロイトを自律的に生成し,検証する新しいアプローチであるPoCGenを提案する。
PoCGenはSecBench$.jsデータセットの脆弱性の77%のエクスプロイトを生成することに成功した。
論文 参考訳(メタデータ) (2025-06-05T12:37:33Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - Distributed Temporal Graph Learning with Provenance for APT Detection in Supply Chains [4.3627234063853955]
高度な永続脅威(APT)は、しばしばサプライチェーン脆弱性(SCV)をエントリポイントとして利用する。
現在の防衛戦略は、主に、オープンソースソフトウェア(OSS)におけるプレーンテキストソースコード分析を使用した整合性保証や検出のためのブロックチェーンに重点を置いている。
本稿では,マルチソースデータを統合し,包括的動的グラフ前駆体を構築し,時間グラフ学習を用いてリアルタイムにAPTの挙動を検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T06:42:26Z) - EUREKHA: Enhancing User Representation for Key Hackers Identification in Underground Forums [1.5192294544599656]
地下フォーラムはサイバー犯罪活動のハブとして機能し、匿名性とオンライン監視の回避のためのスペースを提供している。
これらのオペレーションの背後にある重要な機関を特定することは不可欠だが、依然として複雑な課題である。
本稿では、各ユーザをテキストシーケンスとしてモデル化することで、これらの鍵ハッカーを識別するEUREKHAという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-08T11:09:45Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - HasTEE+ : Confidential Cloud Computing and Analytics with Haskell [50.994023665559496]
信頼性コンピューティングは、Trusted Execution Environments(TEEs)と呼ばれる特別なハードウェア隔離ユニットを使用して、コテナントクラウドデプロイメントにおける機密コードとデータの保護を可能にする。
低レベルのC/C++ベースのツールチェーンを提供するTEEは、固有のメモリ安全性の脆弱性の影響を受けやすく、明示的で暗黙的な情報フローのリークを監視するための言語構造が欠如している。
私たちは、Haskellに埋め込まれたドメイン固有言語(cla)であるHasTEE+を使って、上記の問題に対処します。
論文 参考訳(メタデータ) (2024-01-17T00:56:23Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。