論文の概要: Unveiling Malicious Logic: Towards a Statement-Level Taxonomy and Dataset for Securing Python Packages
- arxiv url: http://arxiv.org/abs/2512.12559v1
- Date: Sun, 14 Dec 2025 05:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.313669
- Title: Unveiling Malicious Logic: Towards a Statement-Level Taxonomy and Dataset for Securing Python Packages
- Title(参考訳): Pythonパッケージをセキュアにするためのステートメントレベル分類とデータセットを目指して
- Authors: Ahmed Ryan, Junaid Mansur Ifti, Md Erfan, Akond Ashfaque Ur Rahman, Md Rayhanur Rahman,
- Abstract要約: 既存のデータセットは、パッケージレベルにおいて、パッケージを悪意のあるものまたは良性であるとラベル付けするが、どのステートメントが悪意のある振る舞いを実装しているかは明記しない。
我々は、370の悪意あるPythonパッケージのステートメントレベルデータセットを構築し、2,962のラベル付き悪意のあるインジケータを発生させた。
7つのタイプにまたがる47の悪意のある指標の詳細な分類法を導き、コード内での敵の振る舞いがどのように実装されているかを把握する。
- 参考スコア(独自算出の注目度): 0.19029675742486804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of open-source ecosystems enables developers to integrate third-party packages, but also exposes them to malicious packages crafted to execute harmful behavior via public repositories such as PyPI. Existing datasets (e.g., pypi-malregistry, DataDog, OpenSSF, MalwareBench) label packages as malicious or benign at the package level, but do not specify which statements implement malicious behavior. This coarse granularity limits research and practice: models cannot be trained to localize malicious code, detectors cannot justify alerts with code-level evidence, and analysts cannot systematically study recurring malicious indicators or attack chains. To address this gap, we construct a statement-level dataset of 370 malicious Python packages (833 files, 90,527 lines) with 2,962 labeled occurrences of malicious indicators. From these annotations, we derive a fine-grained taxonomy of 47 malicious indicators across 7 types that capture how adversarial behavior is implemented in code, and we apply sequential pattern mining to uncover recurring indicator sequences that characterize common attack workflows. Our contribution enables explainable, behavior-centric detection and supports both semantic-aware model training and practical heuristics for strengthening software supply-chain defenses.
- Abstract(参考訳): オープンソースエコシステムが広く採用されていることにより、開発者はサードパーティのパッケージを統合することが可能になるが、PyPIのような公開リポジトリを通じて有害な振る舞いを実行するために作られた悪意のあるパッケージに公開することもできる。
既存のデータセット(例えば、pypi-malregistry、DataDog、OpenSSF、MalwareBench)は、パッケージレベルで悪意のある、または良心的なパッケージである。
モデルは悪意のあるコードをローカライズするために訓練できないし、検出器はコードレベルの証拠でアラートを正当化できないし、アナリストは繰り返し発生する悪意のある指標や攻撃チェーンを体系的に研究できない。
このギャップに対処するため、370の悪意あるPythonパッケージ(833ファイル、90,527行)のステートメントレベルのデータセットを構築し、2,962個の悪意のあるインジケータをラベル付けした。
これらのアノテーションから、コード内での敵の振る舞いがどのように実装されているかを把握する7つのタイプにわたる47の悪意のある指標のきめ細かい分類法を導き、シーケンシャルなパターンマイニングを適用して、一般的な攻撃ワークフローを特徴付ける反復的な指標シーケンスを明らかにする。
我々の貢献は、説明可能な行動中心の検出を可能にし、セマンティックアウェアモデルのトレーニングと、ソフトウェアサプライチェーンの防御を強化するための実践的ヒューリスティックの両方をサポートする。
関連論文リスト
- Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - ConfuGuard: Using Metadata to Detect Active and Stealthy Package Confusion Attacks Accurately and at Scale [3.259700715934023]
パッケージ混乱の脅威を検知する最先端の検出器であるConfuGuardを紹介する。
本稿では,前パッケージ混同データから得られた良性信号の最初の経験的分析について述べる。
パッケージメタデータを活用して良質なパッケージを識別し、サポートを最大7つのソフトウェアパッケージレジストリに拡張します。
論文 参考訳(メタデータ) (2025-02-27T21:25:10Z) - A Machine Learning-Based Approach For Detecting Malicious PyPI Packages [4.311626046942916]
現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。
この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。
本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T18:49:06Z) - An Empirical Study of Malicious Code In PyPI Ecosystem [15.739368369031277]
PyPIは便利なパッケージ管理プラットフォームを開発者に提供します。
PyPIエコシステムの急速な発展は、悪意のあるパッケージの伝播という深刻な問題を引き起こしている。
PyPIエコシステムにおける悪意のあるコードライフサイクルの特徴と現状を理解するための実証的研究を行う。
論文 参考訳(メタデータ) (2023-09-20T02:51:02Z) - Killing Two Birds with One Stone: Malicious Package Detection in NPM and PyPI using a Single Model of Malicious Behavior Sequence [8.58275522939837]
パッケージレジストリ NPM と PyPI は悪意のあるパッケージで溢れている。
既存の悪意あるNPMとPyPIパッケージ検出アプローチの有効性は、2つの課題によって妨げられている。
我々は,NPMとPyPIの悪意あるパッケージを検出するためにCerebroを提案し,実装する。
論文 参考訳(メタデータ) (2023-09-06T00:58:59Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。