論文の概要: SourceBroken: A large-scale analysis on the (un)reliability of SourceRank in the PyPI ecosystem
- arxiv url: http://arxiv.org/abs/2512.24400v1
- Date: Tue, 30 Dec 2025 18:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.45885
- Title: SourceBroken: A large-scale analysis on the (un)reliability of SourceRank in the PyPI ecosystem
- Title(参考訳): SourceBroken: PyPIエコシステムにおけるSourceRankの信頼性に関する大規模分析
- Authors: Biagio Montaruli, Serena Elisa Ponta, Luca Compagna, Davide Balzarotti,
- Abstract要約: SourceRankは、オープンソースパッケージの人気と品質を評価する18のメトリクスからなるスコアシステムである。
本稿では,URLの混同を含む各メトリックに対する潜在的な回避アプローチを識別する脅威モデルを提案する。
PyPIエコシステムにおけるSourceRankの信頼性について,良性および悪意のあるパッケージのSourceRank分布を分析して検討した。
- 参考スコア(独自算出の注目度): 10.03632278118504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SourceRank is a scoring system made of 18 metrics that assess the popularity and quality of open-source packages. Despite being used in several recent studies, none has thoroughly analyzed its reliability against evasion attacks aimed at inflating the score of malicious packages, thereby masquerading them as trustworthy. To fill this gap, we first propose a threat model that identifies potential evasion approaches for each metric, including the URL confusion technique, which can affect 5 out of the 18 metrics by leveraging a URL pointing to a legitimate repository potentially unrelated to the malicious package. Furthermore, we study the reliability of SourceRank in the PyPI ecosystem by analyzing the SourceRank distributions of benign and malicious packages in the state-of-the-art MalwareBench dataset, as well as in a real-world dataset of 122,398 packages. Our analysis reveals that, while historical data suggests a clear distinction between benign and malicious packages, the real-world distributions overlap significantly, mainly due to SourceRank's failure to timely reflect package removals. As a result, SourceRank cannot be reliably used to discriminate between benign and malicious packages in real-world scenarios, nor to select benign packages among those available on PyPI. Finally, our analysis reveals that URL confusion represents an emerging attack vector, with its prevalence increasing from 4.2% in MalwareBench to 7.0% in our real-world dataset. Moreover, this technique is often used alongside other evasion techniques and can significantly inflate the SourceRank metrics of malicious packages.
- Abstract(参考訳): SourceRankは、オープンソースパッケージの人気と品質を評価する18のメトリクスからなるスコアシステムである。
最近のいくつかの研究で使われているが、悪意のあるパッケージのスコアを膨らませることを目的としたエスケープ攻撃に対する信頼性を徹底的に分析してはいない。
このギャップを埋めるために、我々はまず、悪質なパッケージとは無関係である可能性のあるレポジトリを指し示すURLを活用することで、18のメトリクスのうち5つに影響を与える可能性のあるURL混乱テクニックを含む、各メトリックに対する潜在的な回避アプローチを特定する脅威モデルを提案する。
さらに、PyPIエコシステムにおけるSourceRankの信頼性について、最先端のMalwareBenchデータセットおよび122,398パッケージの実際のデータセットにおいて、SourceRankの良性および悪意のあるパッケージのSourceRank分布を分析して検討する。
我々の分析によると、歴史的データは良質なパッケージと悪質なパッケージの明確な区別を示唆しているが、実世界の分布は、主にSourceRankがパッケージの削除をタイムリーに反映しなかったため、著しく重複している。
その結果、SourceRankは現実世界のシナリオで良性パッケージと悪質パッケージを区別したり、PyPIで利用可能な良性パッケージを選択できない。
最後に、我々の分析により、URLの混乱は出現する攻撃ベクトルを示し、その頻度はMalwareBenchの4.2%から現実のデータセットの7.0%に増加した。
さらに、このテクニックは、他の回避テクニックと併用されることが多く、悪意のあるパッケージのSourceRankメトリクスを著しく改善することができる。
関連論文リスト
- One Detector Fits All: Robust and Adaptive Detection of Malicious Packages from PyPI to Enterprises [10.03632278118504]
PyPIのようなパブリックリポジトリとエンタープライズエコシステムの両方にシームレスに統合可能な堅牢な検出器を導入します。
強靭性を確保するために, きめ細かいコード難読化を用いた逆パッケージ生成手法を提案する。
私たちの検出器は、PyPIのようなパブリックリポジトリとエンタープライズエコシステムの両方にシームレスに統合することができ、偽陽性をレビューするために数分の非常に低い予算を確保できます。
論文 参考訳(メタデータ) (2025-12-03T23:53:56Z) - Towards Classifying Benign And Malicious Packages Using Machine Learning [2.8630136355252582]
悪意のあるオープンソースパッケージ検出には、静的、動的解析、あるいはその両方が必要になる。
現在の動的解析ツールには、悪意のあるパッケージと良質なパッケージを区別する自動メソッドがない。
本稿では、動的解析(例えば、実行されたコマンド)から特徴を抽出し、機械学習技術を活用して、パッケージを自動的に良性または悪意として分類するアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-19T01:59:11Z) - Detecting Malicious Source Code in PyPI Packages with LLMs: Does RAG Come in Handy? [6.7341750484636975]
PyPIのようなオープンソースのエコシステムにおける悪意あるソフトウェアパッケージは、セキュリティ上のリスクを増大させる。
本研究では,Large Language Models (LLM) とRetrieval-Augmented Generation (RAG) の有効性を実証的に評価する。
論文 参考訳(メタデータ) (2025-04-18T16:11:59Z) - A Machine Learning-Based Approach For Detecting Malicious PyPI Packages [4.311626046942916]
現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。
この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。
本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:49:06Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - A Large-scale Fine-grained Analysis of Packages in Open-Source Software Ecosystems [13.610690659041417]
悪意のあるパッケージはメタデータの内容が少なく、正規のパッケージよりも静的関数や動的関数が少ない。
きめ細かい情報(FGI)の1次元は、悪意のあるパッケージを検出するのに十分な識別能力を持っている。
論文 参考訳(メタデータ) (2024-04-17T15:16:01Z) - RAIN: RegulArization on Input and Network for Black-Box Domain
Adaptation [80.03883315743715]
ソースのないドメイン適応は、ソースデータを公開することなく、ソース訓練されたモデルをターゲットドメインに転送する。
このパラダイムは、ソースモデルに対する敵対的な攻撃のため、データ漏洩のリスクがある。
そこで我々は,入力レベルとネットワークレベルの両方の正規化からブラックボックスドメインを適応させる新しい手法であるRAIN(RegulArization on Input and Network)を提案する。
論文 参考訳(メタデータ) (2022-08-22T18:18:47Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。