論文の概要: A Machine Learning-Based Approach For Detecting Malicious PyPI Packages
- arxiv url: http://arxiv.org/abs/2412.05259v1
- Date: Fri, 06 Dec 2024 18:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:11.882653
- Title: A Machine Learning-Based Approach For Detecting Malicious PyPI Packages
- Title(参考訳): 悪意のあるPyPIパッケージ検出のための機械学習によるアプローチ
- Authors: Haya Samaana, Diego Elias Costa, Emad Shihab, Ahmad Abdellatif,
- Abstract要約: 現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。
この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。
本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
- 参考スコア(独自算出の注目度): 4.311626046942916
- License:
- Abstract: Background. In modern software development, the use of external libraries and packages is increasingly prevalent, streamlining the software development process and enabling developers to deploy feature-rich systems with little coding. While this reliance on reusing code offers substantial benefits, it also introduces serious risks for deployed software in the form of malicious packages - harmful and vulnerable code disguised as useful libraries. Aims. Popular ecosystems, such PyPI, receive thousands of new package contributions every week, and distinguishing safe contributions from harmful ones presents a significant challenge. There is a dire need for reliable methods to detect and address the presence of malicious packages in these environments. Method. To address these challenges, we propose a data-driven approach that uses machine learning and static analysis to examine the package's metadata, code, files, and textual characteristics to identify malicious packages. Results. In evaluations conducted within the PyPI ecosystem, we achieved an F1-measure of 0.94 for identifying malicious packages using a stacking ensemble classifier. Conclusions. This tool can be seamlessly integrated into package vetting pipelines and has the capability to flag entire packages, not just malicious function calls. This enhancement strengthens security measures and reduces the manual workload for developers and registry maintainers, thereby contributing to the overall integrity of the ecosystem.
- Abstract(参考訳): 背景。
現代のソフトウェア開発では、外部ライブラリとパッケージの使用がますます普及し、ソフトウェア開発プロセスの合理化と、開発者がほとんどコーディングせずに機能豊富なシステムをデプロイできるようにする。
コード再利用への依存は大きなメリットをもたらすが、悪意のあるパッケージという形でデプロイされたソフトウェアに深刻なリスクをもたらす。
エイムズ。
PyPIのような人気のあるエコシステムは、毎週何千もの新しいパッケージコントリビューションを受け取り、有害なものと安全なコントリビューションを区別することは、重大な課題である。
これらの環境における悪意のあるパッケージの存在を検知し、対処するための信頼性の高い方法が必要である。
方法。
これらの課題に対処するために、機械学習と静的解析を用いてパッケージのメタデータ、コード、ファイル、テキストの特徴を調べ、悪意のあるパッケージを識別するデータ駆動アプローチを提案する。
結果。
PyPIエコシステム内で行った評価では、スタックングアンサンブル分類器を用いて悪意のあるパッケージを識別するためのF1尺度0.94を達成した。
結論。
このツールはパッケージベッティングパイプラインにシームレスに統合することができ、悪意のある関数呼び出しだけでなく、パッケージ全体をフラグできる。
この強化はセキュリティ対策を強化し、開発者やレジストリメンテナの作業負荷を削減し、エコシステム全体の整合性に寄与する。
関連論文リスト
- The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。
現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。
提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文 参考訳(メタデータ) (2024-09-10T10:12:37Z) - An Empirical Study on Package-Level Deprecation in Python Ecosystem [6.0347124337922144]
広く採用されているプログラミング言語であるPythonは、広範囲で多様なサードパーティ製パッケージエコシステムで有名である。
Pythonエコシステム内のOSSパッケージのかなりの数は、メンテナンスが不十分で、機能やセキュリティの潜在的なリスクにつながっている。
本稿では,Pythonエコシステムにおけるパッケージレベルの非推奨事項の公表,受信,処理に関する現在の実践について検討する。
論文 参考訳(メタデータ) (2024-08-19T18:08:21Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - A Large-scale Fine-grained Analysis of Packages in Open-Source Software Ecosystems [13.610690659041417]
悪意のあるパッケージはメタデータの内容が少なく、正規のパッケージよりも静的関数や動的関数が少ない。
きめ細かい情報(FGI)の1次元は、悪意のあるパッケージを検出するのに十分な識別能力を持っている。
論文 参考訳(メタデータ) (2024-04-17T15:16:01Z) - Malicious Package Detection using Metadata Information [0.272760415353533]
本稿では,メタデータに基づく悪意のあるパッケージ検出モデルであるMeMPtecを紹介する。
MeMPtecはパッケージメタデータ情報から一連の機能を抽出する。
実験の結果,偽陽性と偽陰性の両方が有意な減少を示した。
論文 参考訳(メタデータ) (2024-02-12T06:54:57Z) - An Empirical Study of Malicious Code In PyPI Ecosystem [15.739368369031277]
PyPIは便利なパッケージ管理プラットフォームを開発者に提供します。
PyPIエコシステムの急速な発展は、悪意のあるパッケージの伝播という深刻な問題を引き起こしている。
PyPIエコシステムにおける悪意のあるコードライフサイクルの特徴と現状を理解するための実証的研究を行う。
論文 参考訳(メタデータ) (2023-09-20T02:51:02Z) - VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文 参考訳(メタデータ) (2023-08-09T02:02:46Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z) - SafePILCO: a software tool for safe and data-efficient policy synthesis [67.17251247987187]
SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。
これは、Pythonで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。
論文 参考訳(メタデータ) (2020-08-07T17:17:30Z) - Autosploit: A Fully Automated Framework for Evaluating the
Exploitability of Security Vulnerabilities [47.748732208602355]
Autosploitは脆弱性の悪用性を評価するためのフレームワークだ。
環境の異なる設定でエクスプロイトを自動的にテストする。
ノイズレス環境とノイズの多い環境の両方で脆弱性を悪用する能力に影響を与えるシステムの特性を識別することができる。
論文 参考訳(メタデータ) (2020-06-30T18:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。