論文の概要: PackageIntel: Leveraging Large Language Models for Automated Intelligence Extraction in Package Ecosystems
- arxiv url: http://arxiv.org/abs/2409.15049v1
- Date: Mon, 23 Sep 2024 14:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:44:12.231246
- Title: PackageIntel: Leveraging Large Language Models for Automated Intelligence Extraction in Package Ecosystems
- Title(参考訳): PackageIntel: パッケージエコシステムにおけるインテリジェンスの自動抽出のための大規模言語モデルを活用する
- Authors: Wenbo Guo, Chengwei Liu, Limin Wang, Jiahui Wu, Zhengzi Xu, Cheng Huang, Yong Fang, Yang Liu,
- Abstract要約: PackageIntelは、悪意のあるパッケージインテリジェンスの収集、処理、検索に革命をもたらす新しいプラットフォームである。
我々は,21の異なるインテリジェンスリポジトリから生成された20,692のNPMおよびPyPIパッケージを含む包括的データベースを開発した。
PackageIntelは、SnykやOSVのような主要なデータベースよりも平均70%早く脅威を検出し、1インテリジェンスあたり0.094ドルで費用対効果で運用する。
- 参考スコア(独自算出の注目度): 24.89973199603524
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rise of malicious packages in public registries poses a significant threat to software supply chain (SSC) security. Although academia and industry employ methods like software composition analysis (SCA) to address this issue, existing approaches often lack timely and comprehensive intelligence updates. This paper introduces PackageIntel, a novel platform that revolutionizes the collection, processing, and retrieval of malicious package intelligence. By utilizing exhaustive search techniques, snowball sampling from diverse sources, and large language models (LLMs) with specialized prompts, PackageIntel ensures enhanced coverage, timeliness, and accuracy. We have developed a comprehensive database containing 20,692 malicious NPM and PyPI packages sourced from 21 distinct intelligence repositories. Empirical evaluations demonstrate that PackageIntel achieves a precision of 98.6% and an F1 score of 92.0 in intelligence extraction. Additionally, it detects threats on average 70% earlier than leading databases like Snyk and OSV, and operates cost-effectively at $0.094 per intelligence piece. The platform has successfully identified and reported over 1,000 malicious packages in downstream package manager mirror registries. This research provides a robust, efficient, and timely solution for identifying and mitigating threats within the software supply chain ecosystem.
- Abstract(参考訳): パブリックレジストリにおける悪意あるパッケージの台頭は、ソフトウェアサプライチェーン(SSC)のセキュリティに重大な脅威をもたらす。
学術や産業では、この問題に対処するためにSCA(Software composition analysis)のような手法を採用していますが、既存のアプローチでは、タイムリーで包括的なインテリジェンス更新が欠如しています。
本稿では,悪意あるパッケージインテリジェンスの収集,処理,検索に革命をもたらす新しいプラットフォームであるPackageIntelを紹介する。
徹底的な探索手法、多様なソースからの雪玉サンプリング、特別なプロンプトを備えた大規模言語モデル(LLM)を活用することにより、PackageIntelは、カバレッジ、タイムライン、精度の向上を保証する。
我々は,21の異なるインテリジェンスリポジトリから生成された20,692のNPMおよびPyPIパッケージを含む包括的データベースを開発した。
実証的な評価では、PackageIntelは98.6%の精度、F1スコアは92.0のインテリジェンス抽出を達成している。
さらに、SnykやOSVのような主要なデータベースよりも平均70%早く脅威を検出し、インテリジェンスごとに0.094ドルで費用対効果で運用する。
このプラットフォームは、下流のパッケージマネージャミラーレジストリで1,000以上の悪意あるパッケージを特定し、報告している。
この研究は、ソフトウェアサプライチェーンエコシステム内の脅威を特定し緩和するための、堅牢で効率的でタイムリーなソリューションを提供する。
関連論文リスト
- An Empirical Study on Package-Level Deprecation in Python Ecosystem [6.0347124337922144]
広く採用されているプログラミング言語であるPythonは、広範囲で多様なサードパーティ製パッケージエコシステムで有名である。
Pythonエコシステム内のOSSパッケージのかなりの数は、メンテナンスが不十分で、機能やセキュリティの潜在的なリスクにつながっている。
本稿では,Pythonエコシステムにおけるパッケージレベルの非推奨事項の公表,受信,処理に関する現在の実践について検討する。
論文 参考訳(メタデータ) (2024-08-19T18:08:21Z) - A Large-scale Fine-grained Analysis of Packages in Open-Source Software Ecosystems [13.610690659041417]
悪意のあるパッケージはメタデータの内容が少なく、正規のパッケージよりも静的関数や動的関数が少ない。
きめ細かい情報(FGI)の1次元は、悪意のあるパッケージを検出するのに十分な識別能力を持っている。
論文 参考訳(メタデータ) (2024-04-17T15:16:01Z) - OSS Malicious Package Analysis in the Wild [17.028240712650486]
本稿では、散在するオンラインソースから23,425の悪意あるパッケージのデータセットを構築し、キュレートする。
次に,OSSマルウェアコーパスを表現し,悪意のあるパッケージ解析を行う知識グラフを提案する。
論文 参考訳(メタデータ) (2024-04-07T15:25:13Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - Malicious Package Detection using Metadata Information [0.272760415353533]
本稿では,メタデータに基づく悪意のあるパッケージ検出モデルであるMeMPtecを紹介する。
MeMPtecはパッケージメタデータ情報から一連の機能を抽出する。
実験の結果,偽陽性と偽陰性の両方が有意な減少を示した。
論文 参考訳(メタデータ) (2024-02-12T06:54:57Z) - VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文 参考訳(メタデータ) (2023-08-09T02:02:46Z) - SmartBook: AI-Assisted Situation Report Generation for Intelligence Analysts [55.73424958012229]
この研究は、状況報告生成におけるAI支援のためのインテリジェンスアナリストの実践と嗜好を特定する。
本稿では,大量のニュースデータから状況報告を自動生成するフレームワークSmartBookを紹介する。
我々は,SmartBookの総合的な評価を行い,ユーザによるコンテントレビューと編集調査を併用し,正確な状況報告を生成する上でのSmartBookの有効性を明らかにした。
論文 参考訳(メタデータ) (2023-03-25T03:03:00Z) - ThreatKG: An AI-Powered System for Automated Open-Source Cyber Threat Intelligence Gathering and Management [65.0114141380651]
ThreatKGはOSCTIの収集と管理のための自動化システムである。
複数のソースから多数のOSCTIレポートを効率的に収集する。
さまざまな脅威エンティティに関する高品質な知識を抽出するために、AIベースの専門技術を使用する。
論文 参考訳(メタデータ) (2022-12-20T16:13:59Z) - A System for Automated Open-Source Threat Intelligence Gathering and
Management [53.65687495231605]
SecurityKGはOSCTIの収集と管理を自動化するシステムである。
AIとNLP技術を組み合わせて、脅威行動に関する高忠実な知識を抽出する。
論文 参考訳(メタデータ) (2021-01-19T18:31:35Z) - A System for Efficiently Hunting for Cyber Threats in Computer Systems
Using Threat Intelligence [78.23170229258162]
ThreatRaptorは、OSCTIを使用してコンピュータシステムにおけるサイバー脅威ハンティングを容易にするシステムです。
ThreatRaptorは、(1)構造化OSCTIテキストから構造化された脅威行動を抽出する非監視で軽量で正確なNLPパイプライン、(2)簡潔で表現力のあるドメイン固有クエリ言語であるTBQLを提供し、悪意のあるシステムアクティビティを探し、(3)抽出された脅威行動からTBQLクエリを自動的に合成するクエリ合成メカニズムを提供する。
論文 参考訳(メタデータ) (2021-01-17T19:44:09Z) - Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence [94.94833077653998]
ThreatRaptorは、オープンソースのCyber Threat Intelligence(OSCTI)を使用して、コンピュータシステムにおける脅威追跡を容易にするシステムである。
構造化されていないOSCTIテキストから構造化された脅威行動を抽出し、簡潔で表現力豊かなドメイン固有クエリ言語TBQLを使用して悪意のあるシステムアクティビティを探索する。
広範囲にわたる攻撃事例の評価は、現実的な脅威狩りにおけるThreatRaptorの精度と効率を実証している。
論文 参考訳(メタデータ) (2020-10-26T14:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。