論文の概要: PackageIntel: Leveraging Large Language Models for Automated Intelligence Extraction in Package Ecosystems
- arxiv url: http://arxiv.org/abs/2409.15049v3
- Date: Fri, 17 Oct 2025 01:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.301294
- Title: PackageIntel: Leveraging Large Language Models for Automated Intelligence Extraction in Package Ecosystems
- Title(参考訳): PackageIntel: パッケージエコシステムにおけるインテリジェンスの自動抽出のための大規模言語モデルを活用する
- Authors: Wenbo Guo, Chengwei Liu, Limin Wang, Yiran Zhang, Jiahui Wu, Zhengzi Xu, Yang Liu,
- Abstract要約: PackageIntelは、悪意のあるパッケージインテリジェンスの収集、処理、検索に革命をもたらす新しいプラットフォームである。
我々は,21の異なるインテリジェンスリポジトリから生成された20,692のNPMおよびPyPIパッケージを含む包括的データベースを開発した。
PackageIntelは、SnykやOSVのような主要なデータベースよりも平均70%早く脅威を検出し、1インテリジェンスあたり0.094ドルで費用対効果で運用する。
- 参考スコア(独自算出の注目度): 22.945483499133385
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rise of malicious packages in public registries poses a significant threat to software supply chain (SSC) security. Although academia and industry employ methods like software composition analysis (SCA) to address this issue, existing approaches often lack timely and comprehensive intelligence updates. This paper introduces PackageIntel, a novel platform that revolutionizes the collection, processing, and retrieval of malicious package intelligence. By utilizing exhaustive search techniques, snowball sampling from diverse sources, and large language models (LLMs) with specialized prompts, PackageIntel ensures enhanced coverage, timeliness, and accuracy. We have developed a comprehensive database containing 20,692 malicious NPM and PyPI packages sourced from 21 distinct intelligence repositories. Empirical evaluations demonstrate that PackageIntel achieves a precision of 98.6% and an F1 score of 92.0 in intelligence extraction. Additionally, it detects threats on average 70% earlier than leading databases like Snyk and OSV, and operates cost-effectively at $0.094 per intelligence piece. The platform has successfully identified and reported over 1,000 malicious packages in downstream package manager mirror registries. This research provides a robust, efficient, and timely solution for identifying and mitigating threats within the software supply chain ecosystem.
- Abstract(参考訳): パブリックレジストリにおける悪意あるパッケージの台頭は、ソフトウェアサプライチェーン(SSC)のセキュリティに重大な脅威をもたらす。
学術や産業では、この問題に対処するためにSCA(Software composition analysis)のような手法を採用していますが、既存のアプローチでは、タイムリーで包括的なインテリジェンス更新が欠如しています。
本稿では,悪意あるパッケージインテリジェンスの収集,処理,検索に革命をもたらす新しいプラットフォームであるPackageIntelを紹介する。
徹底的な探索手法、多様なソースからの雪玉サンプリング、特別なプロンプトを備えた大規模言語モデル(LLM)を活用することにより、PackageIntelは、カバレッジ、タイムライン、精度の向上を保証する。
我々は,21の異なるインテリジェンスリポジトリから生成された20,692のNPMおよびPyPIパッケージを含む包括的データベースを開発した。
実証的な評価では、PackageIntelは98.6%の精度、F1スコアは92.0のインテリジェンス抽出を達成している。
さらに、SnykやOSVのような主要なデータベースよりも平均70%早く脅威を検出し、インテリジェンスごとに0.094ドルで費用対効果で運用する。
このプラットフォームは、下流のパッケージマネージャミラーレジストリで1,000以上の悪意あるパッケージを特定し、報告している。
この研究は、ソフトウェアサプライチェーンエコシステム内の脅威を特定し緩和するための、堅牢で効率的でタイムリーなソリューションを提供する。
関連論文リスト
- Analyzing the Availability of E-Mail Addresses for PyPI Libraries [89.21869606965578]
81.6%のライブラリには、少なくとも1つの有効な電子メールアドレスが含まれており、PyPIが主要なソースとなっている。
698,000以上の無効なエントリを識別します。
論文 参考訳(メタデータ) (2026-01-20T14:54:58Z) - Trace: Securing Smart Contract Repository Against Access Control Vulnerability [58.02691083789239]
GitHubはソースコード、ドキュメント、設定ファイルを含む多数のスマートコントラクトリポジトリをホストしている。
サードパーティの開発者は、カスタム開発中にこれらのリポジトリからコードを参照、再利用、フォークすることが多い。
スマートコントラクトの脆弱性を検出する既存のツールは、複雑なリポジトリを扱う能力に制限されている。
論文 参考訳(メタデータ) (2025-10-22T05:18:28Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Open Source, Open Threats? Investigating Security Challenges in Open-Source Software [0.7810572107832383]
オープンソースソフトウェア(OSS)は、さまざまなドメインでますます人気が高まっている。
本稿ではOSSプラットフォームにおける報告された脆弱性の傾向とパターンについて考察する。
論文 参考訳(メタデータ) (2025-06-15T23:22:25Z) - QUT-DV25: A Dataset for Dynamic Analysis of Next-Gen Software Supply Chain Attacks [4.045165357831481]
既存のデータセットはメタデータ検査と静的コード解析に依存しており、そのような攻撃を検出するには不十分である。
本稿では,サプライチェーン攻撃の検出・緩和研究を支援するための動的解析データセットQUT-DV25を提案する。
このデータセットは、14,271のPythonパッケージからインストールとインストール後のトレースをキャプチャする。
論文 参考訳(メタデータ) (2025-05-20T01:34:04Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - ConfuGuard: Using Metadata to Detect Active and Stealthy Package Confusion Attacks Accurately and at Scale [3.259700715934023]
ConfuGuardは、パッケージの混乱による脅威に対処するために設計されたソリューションである。
本稿では,前パッケージ混同データから得られた良性信号の最初の経験的分析について述べる。
3つから6つのソフトウェアパッケージレジストリのサポートを拡張し、パッケージメタデータを活用して良質なパッケージを識別します。
論文 参考訳(メタデータ) (2025-02-27T21:25:10Z) - A Machine Learning-Based Approach For Detecting Malicious PyPI Packages [4.311626046942916]
現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。
この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。
本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:49:06Z) - The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。
現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。
提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文 参考訳(メタデータ) (2024-09-10T10:12:37Z) - An Empirical Study on Package-Level Deprecation in Python Ecosystem [6.0347124337922144]
広く採用されているプログラミング言語であるPythonは、広範囲で多様なサードパーティ製パッケージエコシステムで有名である。
Pythonエコシステム内のOSSパッケージのかなりの数は、メンテナンスが不十分で、機能やセキュリティの潜在的なリスクにつながっている。
本稿では,Pythonエコシステムにおけるパッケージレベルの非推奨事項の公表,受信,処理に関する現在の実践について検討する。
論文 参考訳(メタデータ) (2024-08-19T18:08:21Z) - Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries [91.97201077607862]
産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。
このようなコミュニティの活動を監視するには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。
本研究では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。
論文 参考訳(メタデータ) (2024-04-26T13:27:04Z) - A Large-scale Fine-grained Analysis of Packages in Open-Source Software Ecosystems [13.610690659041417]
悪意のあるパッケージはメタデータの内容が少なく、正規のパッケージよりも静的関数や動的関数が少ない。
きめ細かい情報(FGI)の1次元は、悪意のあるパッケージを検出するのに十分な識別能力を持っている。
論文 参考訳(メタデータ) (2024-04-17T15:16:01Z) - OSS Malicious Package Analysis in the Wild [17.028240712650486]
本稿では、散在するオンラインソースから23,425の悪意あるパッケージのデータセットを構築し、キュレートする。
次に,OSSマルウェアコーパスを表現し,悪意のあるパッケージ解析を行う知識グラフを提案する。
論文 参考訳(メタデータ) (2024-04-07T15:25:13Z) - DONAPI: Malicious NPM Packages Detector using Behavior Sequence Knowledge Mapping [28.852274185512236]
npmは最も広範なパッケージマネージャであり、200万人以上のサードパーティのオープンソースパッケージをホストしている。
本稿では,340万以上のパッケージを含むローカルパッケージキャッシュをほぼリアルタイムで同期させ,より詳細なパッケージコードにアクセスできるようにする。
静的解析と動的解析を組み合わせた自動悪質npmパッケージ検出器であるDONAPIを提案する。
論文 参考訳(メタデータ) (2024-03-13T08:38:21Z) - The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning [87.1610740406279]
ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
Weapons of Mass Destruction Proxyベンチマークを公開しています。
論文 参考訳(メタデータ) (2024-03-05T18:59:35Z) - Malicious Package Detection using Metadata Information [0.272760415353533]
本稿では,メタデータに基づく悪意のあるパッケージ検出モデルであるMeMPtecを紹介する。
MeMPtecはパッケージメタデータ情報から一連の機能を抽出する。
実験の結果,偽陽性と偽陰性の両方が有意な減少を示した。
論文 参考訳(メタデータ) (2024-02-12T06:54:57Z) - An Empirical Study of Malicious Code In PyPI Ecosystem [15.739368369031277]
PyPIは便利なパッケージ管理プラットフォームを開発者に提供します。
PyPIエコシステムの急速な発展は、悪意のあるパッケージの伝播という深刻な問題を引き起こしている。
PyPIエコシステムにおける悪意のあるコードライフサイクルの特徴と現状を理解するための実証的研究を行う。
論文 参考訳(メタデータ) (2023-09-20T02:51:02Z) - VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文 参考訳(メタデータ) (2023-08-09T02:02:46Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - SmartBook: AI-Assisted Situation Report Generation for Intelligence Analysts [55.73424958012229]
この研究は、状況報告生成におけるAI支援のためのインテリジェンスアナリストの実践と嗜好を特定する。
本稿では,大量のニュースデータから状況報告を自動生成するフレームワークSmartBookを紹介する。
我々は,SmartBookの総合的な評価を行い,ユーザによるコンテントレビューと編集調査を併用し,正確な状況報告を生成する上でのSmartBookの有効性を明らかにした。
論文 参考訳(メタデータ) (2023-03-25T03:03:00Z) - ThreatKG: An AI-Powered System for Automated Open-Source Cyber Threat Intelligence Gathering and Management [65.0114141380651]
ThreatKGはOSCTIの収集と管理のための自動化システムである。
複数のソースから多数のOSCTIレポートを効率的に収集する。
さまざまな脅威エンティティに関する高品質な知識を抽出するために、AIベースの専門技術を使用する。
論文 参考訳(メタデータ) (2022-12-20T16:13:59Z) - A System for Automated Open-Source Threat Intelligence Gathering and
Management [53.65687495231605]
SecurityKGはOSCTIの収集と管理を自動化するシステムである。
AIとNLP技術を組み合わせて、脅威行動に関する高忠実な知識を抽出する。
論文 参考訳(メタデータ) (2021-01-19T18:31:35Z) - A System for Efficiently Hunting for Cyber Threats in Computer Systems
Using Threat Intelligence [78.23170229258162]
ThreatRaptorは、OSCTIを使用してコンピュータシステムにおけるサイバー脅威ハンティングを容易にするシステムです。
ThreatRaptorは、(1)構造化OSCTIテキストから構造化された脅威行動を抽出する非監視で軽量で正確なNLPパイプライン、(2)簡潔で表現力のあるドメイン固有クエリ言語であるTBQLを提供し、悪意のあるシステムアクティビティを探し、(3)抽出された脅威行動からTBQLクエリを自動的に合成するクエリ合成メカニズムを提供する。
論文 参考訳(メタデータ) (2021-01-17T19:44:09Z) - Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence [94.94833077653998]
ThreatRaptorは、オープンソースのCyber Threat Intelligence(OSCTI)を使用して、コンピュータシステムにおける脅威追跡を容易にするシステムである。
構造化されていないOSCTIテキストから構造化された脅威行動を抽出し、簡潔で表現力豊かなドメイン固有クエリ言語TBQLを使用して悪意のあるシステムアクティビティを探索する。
広範囲にわたる攻撃事例の評価は、現実的な脅威狩りにおけるThreatRaptorの精度と効率を実証している。
論文 参考訳(メタデータ) (2020-10-26T14:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。