論文の概要: Mining the YARA Ecosystem: From Ad-Hoc Sharing to Data-Driven Threat Intelligence
- arxiv url: http://arxiv.org/abs/2603.14191v1
- Date: Sun, 15 Mar 2026 03:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.661903
- Title: Mining the YARA Ecosystem: From Ad-Hoc Sharing to Data-Driven Threat Intelligence
- Title(参考訳): YARAエコシステムのマイニング - アドホック共有からデータ駆動型脅威インテリジェンスへ
- Authors: Dectot--Le Monnier de Gouville Esteban, Mohammad Hamdaqa, Moataz Chouchen,
- Abstract要約: YARAは「コードとしての判断」のデファクトスタンダードとして自らを確立している。
広く使われているにもかかわらず、オープンソースのYARAエコシステムはアドホックな共有と不透明な品質が特徴である。
我々は,1,853のGitHubリポジトリから抽出した840万のルールについて,大規模な混合メソッド調査を行った。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: YARA has established itself as the de facto standard for "Detection as Code," enabling analysts and DevSecOps practitioners to define signatures for malware identification across the software supply chain. Despite its pervasive use, the open-source YARA ecosystem remains characterized by ad-hoc sharing and opaque quality. Practitioners currently rely on public repositories without empirical evidence regarding the ecosystem's structural characteristics, maintenance and diffusion dynamics, or operational reliability. We conducted a large-scale mixed-method study of 8.4 million rules mined from 1,853 GitHub repositories. Our pipeline integrates repository mining to map supply chain dynamics, static analysis to assess syntactic quality, and dynamic benchmarking against 4,026 malware and 2,000 goodware samples to measure operational effectiveness. We reveal a highly centralized structure where 10 authors drive 80% of rule adoption. The ecosystem functions as a "static supply chain": repositories show a median inactivity of 782 days and a median technical lag of 4.2 years. While static quality scores appear high (mean = 99.4/100), operational benchmarking uncovers significant noise (false positives) and low recall. Furthermore, coverage is heavily biased toward legacy threats (Ransomware), leaving modern initial access vectors (Loaders, Stealers) severely underrepresented. These findings expose a systemic "double penalty": defenders incur high performance overhead for decayed intelligence. We argue that public repositories function as raw data dumps rather than curated feeds, necessitating a paradigm shift from ad-hoc collection to rigorous rule engineering. We release our dataset and pipeline to support future data-driven curation tools.
- Abstract(参考訳): YARAは、"Detection as Code"のデファクトスタンダードとして自らを確立しており、アナリストやDevSecOps実践者がソフトウェアサプライチェーン全体でマルウェア識別のための署名を定義することができる。
広く使われているにもかかわらず、オープンソースのYARAエコシステムはアドホックな共有と不透明な品質が特徴である。
現在、実践者は、エコシステムの構造的特性、保守と拡散力学、運用上の信頼性に関する実証的な証拠のない公開リポジトリに依存している。
我々は,1,853のGitHubリポジトリから抽出した840万のルールについて,大規模な混合メソッド調査を行った。
我々のパイプラインは,リポジトリマイニングを統合して,サプライチェーンのダイナミックスをマッピングし,静的解析で構文的品質を評価し,4,026のマルウェアと2000のグッドウェアのサンプルに対して動的ベンチマークを行い,運用効率を計測する。
10人の著者が80%のルール採用を推進している、高度に集中した構造を明らかにします。
生態系は「静電気サプライチェーン」として機能し、レポジトリは782日、技術遅延は4.2年である。
静的な品質スコアは高い(平均=99.4/100)が、運用ベンチマークでは大きなノイズ(偽陽性)と低いリコールが明らかになった。
さらに、カバー範囲はレガシーな脅威(ランサムウェア)に大きく偏っており、現代の初期アクセスベクター(ローダ、ステアラー)は過小評価されている。
これらの発見は、システム的な「二重罰」を露呈する: 防御者は、腐敗した知性に対して高いパフォーマンスのオーバーヘッドを被る。
公開リポジトリは、キュレートされたフィードではなく生のデータダンプとして機能し、アドホックなコレクションから厳格なルールエンジニアリングへのパラダイムシフトを必要とします。
将来のデータ駆動キュレーションツールをサポートするために、データセットとパイプラインをリリースしています。
関連論文リスト
- HubScan: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems [0.031068858355080494]
ハブ性は有害なコンテンツの導入、検索ランキングの変更、コンテンツフィルタリングのバイパス、システムパフォーマンスの低下に利用することができる。
本稿では,RAGシステム内のハブを特定するために,ベクトルインデックスと埋め込みを評価したオープンソースのセキュリティスキャナである Hubscan を紹介する。
Hubscanは0.2%の警告予算で90%のリコールを達成する。100%リコールは0.4%で、敵のハブは99.8%のパーセンタイルを上回っている。
論文 参考訳(メタデータ) (2026-02-25T21:37:53Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - From Past to Present: A Survey of Malicious URL Detection Techniques, Datasets and Code Repositories [3.323388021979584]
悪意のあるURLは、ユーザーを騙してプライベートデータを拡散させたり、ホストシステムに侵入するために有害なペイロードを配布することで、サイバーセキュリティエコシステムを絶えず脅かしている。
本稿では,従来のブラックリストから高度なディープラーニングアプローチまで,手法を体系的に分析する。
従来の調査とは違って,既存の研究を主要なデータモダリティに応じて分類する,新しいモダリティに基づく分類法を提案する。
論文 参考訳(メタデータ) (2025-04-23T06:23:18Z) - OSPtrack: A Labeled Dataset Targeting Simulated Execution of Open-Source Software [0.0]
このデータセットには9,461のパッケージレポートが含まれており、そのうち1,962が悪意のあるものである。
データセットには、ファイル、ソケット、コマンド、DNSレコードなどの静的および動的機能が含まれている。
このデータセットは実行時検出をサポートし、検出モデルトレーニングを強化し、エコシステム間の効率的な比較分析を可能にする。
論文 参考訳(メタデータ) (2024-11-22T10:07:42Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Detecting Security Fixes in Open-Source Repositories using Static Code
Analyzers [8.716427214870459]
機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。
埋め込みの構築やMLモデルをトレーニングして、脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。
当社のメソッドとcommit2vecの組み合わせは,脆弱性を修正するコミットの自動識別において,最先端技術よりも明確な改善であることがわかった。
論文 参考訳(メタデータ) (2021-05-07T15:57:17Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。