論文の概要: On the Feasibility of Cross-Language Detection of Malicious Packages in
npm and PyPI
- arxiv url: http://arxiv.org/abs/2310.09571v1
- Date: Sat, 14 Oct 2023 12:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 02:42:05.148178
- Title: On the Feasibility of Cross-Language Detection of Malicious Packages in
npm and PyPI
- Title(参考訳): npmおよびPyPIにおける悪性パッケージのクロスランゲージ検出の可能性について
- Authors: Piergiorgio Ladisa and Serena Elisa Ponta and Nicola Ronzoni and
Matias Martinez and Olivier Barais
- Abstract要約: 悪意のあるユーザは悪意のあるコードを含むオープンソースパッケージを公開することでマルウェアを拡散し始めた。
最近の研究は、npmエコシステム内の悪意あるパッケージを検出するために機械学習技術を適用している。
言語に依存しない一連の特徴と,npm と PyPI の悪意あるパッケージを検出可能なモデルのトレーニングを含む,新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 6.935278888313423
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current software supply chains heavily rely on open-source packages hosted in
public repositories. Given the popularity of ecosystems like npm and PyPI,
malicious users started to spread malware by publishing open-source packages
containing malicious code. Recent works apply machine learning techniques to
detect malicious packages in the npm ecosystem. However, the scarcity of
samples poses a challenge to the application of machine learning techniques in
other ecosystems. Despite the differences between JavaScript and Python, the
open-source software supply chain attacks targeting such languages show
noticeable similarities (e.g., use of installation scripts, obfuscated strings,
URLs).
In this paper, we present a novel approach that involves a set of
language-independent features and the training of models capable of detecting
malicious packages in npm and PyPI by capturing their commonalities. This
methodology allows us to train models on a diverse dataset encompassing
multiple languages, thereby overcoming the challenge of limited sample
availability. We evaluate the models both in a controlled experiment (where
labels of data are known) and in the wild by scanning newly uploaded packages
for both npm and PyPI for 10 days.
We find that our approach successfully detects malicious packages for both
npm and PyPI. Over an analysis of 31,292 packages, we reported 58 previously
unknown malicious packages (38 for npm and 20 for PyPI), which were
consequently removed from the respective repositories.
- Abstract(参考訳): 現在のソフトウェアサプライチェーンは、パブリックリポジトリにホストされているオープンソースパッケージに大きく依存している。
npmやpypiといったエコシステムの人気を考えると、悪意のあるユーザーは悪意のあるコードを含むオープンソースパッケージを公開することでマルウェアを拡散し始めた。
最近の研究は、npmエコシステム内の悪意あるパッケージを検出する機械学習技術を適用している。
しかし、サンプルの不足は、他のエコシステムにおける機械学習技術の適用に課題をもたらす。
javascriptとpythonの違いにもかかわらず、そのような言語をターゲットにしたオープンソースソフトウェアサプライチェーン攻撃は目立った類似性を示している(例えば、インストールスクリプト、難読化文字列、urlなど)。
本稿では,言語に依存しない特徴の集合と,npm と PyPI の悪意あるパッケージを,共通性を捉えることによって検出できるモデルの訓練を含む新しいアプローチを提案する。
この手法により、複数の言語を含む多様なデータセット上でモデルをトレーニングし、限られたサンプル可用性の課題を克服することができる。
我々は、npmとpypiの両方で新たにアップロードされたパッケージを10日間スキャンすることで、制御された実験(データラベルが知られている)と野放しでモデルを評価する。
このアプローチはnpmとPyPIの両方の悪意のあるパッケージを検出できた。
31,292のパッケージを解析した結果,58件の既知の悪質パッケージ(npmは38件,PyPIは20件)が各リポジトリから削除された。
関連論文リスト
- Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries [91.97201077607862]
産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。
このようなコミュニティの活動を監視するには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。
本研究では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。
論文 参考訳(メタデータ) (2024-04-26T13:27:04Z) - DONAPI: Malicious NPM Packages Detector using Behavior Sequence Knowledge Mapping [28.852274185512236]
npmは最も広範なパッケージマネージャであり、200万人以上のサードパーティのオープンソースパッケージをホストしている。
本稿では,340万以上のパッケージを含むローカルパッケージキャッシュをほぼリアルタイムで同期させ,より詳細なパッケージコードにアクセスできるようにする。
静的解析と動的解析を組み合わせた自動悪質npmパッケージ検出器であるDONAPIを提案する。
論文 参考訳(メタデータ) (2024-03-13T08:38:21Z) - pyvene: A Library for Understanding and Improving PyTorch Models via
Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。
私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文 参考訳(メタデータ) (2024-03-12T16:46:54Z) - Malicious Package Detection using Metadata Information [0.272760415353533]
本稿では,メタデータに基づく悪意のあるパッケージ検出モデルであるMeMPtecを紹介する。
MeMPtecはパッケージメタデータ情報から一連の機能を抽出する。
実験の結果,偽陽性と偽陰性の両方が有意な減少を示した。
論文 参考訳(メタデータ) (2024-02-12T06:54:57Z) - An Empirical Study of Malicious Code In PyPI Ecosystem [15.739368369031277]
PyPIは便利なパッケージ管理プラットフォームを開発者に提供します。
PyPIエコシステムの急速な発展は、悪意のあるパッケージの伝播という深刻な問題を引き起こしている。
PyPIエコシステムにおける悪意のあるコードライフサイクルの特徴と現状を理解するための実証的研究を行う。
論文 参考訳(メタデータ) (2023-09-20T02:51:02Z) - Malicious Package Detection in NPM and PyPI using a Single Model of
Malicious Behavior Sequence [7.991922551051611]
パッケージレジストリ NPM と PyPI は悪意のあるパッケージで溢れている。
既存の悪意あるNPMとPyPIパッケージ検出アプローチの有効性は、2つの課題によって妨げられている。
我々は,NPMとPyPIの悪意あるパッケージを検出するためにCerebroを提案し,実装する。
論文 参考訳(メタデータ) (2023-09-06T00:58:59Z) - PyPOTS: A Python Toolbox for Data Mining on Partially-Observed Time
Series [0.0]
PyPOTSは、部分的に保存された時系列のデータマイニングと分析に特化した、オープンソースのPythonライブラリである。
これは、計算、分類、クラスタリング、予測の4つのタスクに分類される多様なアルゴリズムに容易にアクセスできる。
論文 参考訳(メタデータ) (2023-05-30T07:57:05Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - Interactive Visualization of Protein RINs using NetworKit in the Cloud [57.780880387925954]
本稿では,タンパク質動態,特に残基相互作用ネットワーク(RIN)の例について考察する。
NetworKitを使ってクラウドベースの環境を構築しています。
このアプローチの汎用性を実証するために、私たちは、RIN視覚化のためのカスタムJupyterベースのウィジェットを構築するためにそれを使用します。
論文 参考訳(メタデータ) (2022-03-02T17:41:45Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - mvlearn: Multiview Machine Learning in Python [103.55817158943866]
mvlearnは、主要なマルチビュー機械学習メソッドを実装するPythonライブラリである。
パッケージはPython Package Index(PyPI)とcondaパッケージマネージャからインストールできる。
論文 参考訳(メタデータ) (2020-05-25T02:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。