Fugu-MT 論文翻訳(概要): Unveiling Malicious Logic: Towards a Statement-Level Taxonomy and Dataset for Securing Python Packages

論文の概要: Unveiling Malicious Logic: Towards a Statement-Level Taxonomy and Dataset for Securing Python Packages

arxiv url: http://arxiv.org/abs/2512.12559v1
Date: Sun, 14 Dec 2025 05:28:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-16 17:54:56.313669
Title: Unveiling Malicious Logic: Towards a Statement-Level Taxonomy and Dataset for Securing Python Packages
Title（参考訳）: Pythonパッケージをセキュアにするためのステートメントレベル分類とデータセットを目指して
Authors: Ahmed Ryan, Junaid Mansur Ifti, Md Erfan, Akond Ashfaque Ur Rahman, Md Rayhanur Rahman,
Abstract要約: 既存のデータセットは、パッケージレベルにおいて、パッケージを悪意のあるものまたは良性であるとラベル付けするが、どのステートメントが悪意のある振る舞いを実装しているかは明記しない。我々は、370の悪意あるPythonパッケージのステートメントレベルデータセットを構築し、2,962のラベル付き悪意のあるインジケータを発生させた。 7つのタイプにまたがる47の悪意のある指標の詳細な分類法を導き、コード内での敵の振る舞いがどのように実装されているかを把握する。
参考スコア（独自算出の注目度）: 0.19029675742486804
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The widespread adoption of open-source ecosystems enables developers to integrate third-party packages, but also exposes them to malicious packages crafted to execute harmful behavior via public repositories such as PyPI. Existing datasets (e.g., pypi-malregistry, DataDog, OpenSSF, MalwareBench) label packages as malicious or benign at the package level, but do not specify which statements implement malicious behavior. This coarse granularity limits research and practice: models cannot be trained to localize malicious code, detectors cannot justify alerts with code-level evidence, and analysts cannot systematically study recurring malicious indicators or attack chains. To address this gap, we construct a statement-level dataset of 370 malicious Python packages (833 files, 90,527 lines) with 2,962 labeled occurrences of malicious indicators. From these annotations, we derive a fine-grained taxonomy of 47 malicious indicators across 7 types that capture how adversarial behavior is implemented in code, and we apply sequential pattern mining to uncover recurring indicator sequences that characterize common attack workflows. Our contribution enables explainable, behavior-centric detection and supports both semantic-aware model training and practical heuristics for strengthening software supply-chain defenses.
Abstract（参考訳）: オープンソースエコシステムが広く採用されていることにより、開発者はサードパーティのパッケージを統合することが可能になるが、PyPIのような公開リポジトリを通じて有害な振る舞いを実行するために作られた悪意のあるパッケージに公開することもできる。既存のデータセット(例えば、pypi-malregistry、DataDog、OpenSSF、MalwareBench)は、パッケージレベルで悪意のある、または良心的なパッケージである。モデルは悪意のあるコードをローカライズするために訓練できないし、検出器はコードレベルの証拠でアラートを正当化できないし、アナリストは繰り返し発生する悪意のある指標や攻撃チェーンを体系的に研究できない。このギャップに対処するため、370の悪意あるPythonパッケージ(833ファイル、90,527行)のステートメントレベルのデータセットを構築し、2,962個の悪意のあるインジケータをラベル付けした。これらのアノテーションから、コード内での敵の振る舞いがどのように実装されているかを把握する7つのタイプにわたる47の悪意のある指標のきめ細かい分類法を導き、シーケンシャルなパターンマイニングを適用して、一般的な攻撃ワークフローを特徴付ける反復的な指標シーケンスを明らかにする。我々の貢献は、説明可能な行動中心の検出を可能にし、セマンティックアウェアモデルのトレーニングと、ソフトウェアサプライチェーンの防御を強化するための実践的ヒューリスティックの両方をサポートする。

関連論文リスト

Mind the Gap: Evaluating LLMs for High-Level Malicious Package Detection vs. Fine-Grained Indicator Identification [1.1103813686369686]
大きな言語モデル(LLM)が自動セキュリティタスクのための有望なツールとして登場した。本稿では,悪意のあるソフトウェアパッケージを検出するために,13個のLSMを体系的に評価する。
論文参考訳（メタデータ） (2026-02-18T09:36:46Z)
When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文参考訳（メタデータ） (2026-02-09T03:20:11Z)
Cutting the Gordian Knot: Detecting Malicious PyPI Packages via a Knowledge-Mining Framework [14.0015860172317]
Python Package Index(PyPI)は悪意のあるアクターのターゲットとなっている。現在の検出ツールは偽陽性率15～30%を生成し、不正に正規パッケージの3分の1を悪意のあるものとフラグ付けしている。我々は,検出障害を有用な行動知識に変換する知識駆動型フレームワークであるPyGuardを提案する。
論文参考訳（メタデータ） (2026-01-23T05:49:09Z)
Bridging Expert Reasoning and LLM Detection: A Knowledge-Driven Framework for Malicious Packages [10.858565849895314]
NPMやPyPIといったオープンソースエコシステムは、サプライチェーン攻撃によってますます標的になってきている。我々は、専門家による解析的推論を自動化された悪意のあるパッケージ検出に統合する、検索強化世代(RAG)ベースのフレームワークであるIntelGuardを紹介する。
論文参考訳（メタデータ） (2026-01-23T05:31:12Z)
Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文参考訳（メタデータ） (2025-10-03T12:47:21Z)
Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。 InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文参考訳（メタデータ） (2025-05-08T13:04:45Z)
ConfuGuard: Using Metadata to Detect Active and Stealthy Package Confusion Attacks Accurately and at Scale [3.259700715934023]
パッケージ混乱の脅威を検知する最先端の検出器であるConfuGuardを紹介する。本稿では,前パッケージ混同データから得られた良性信号の最初の経験的分析について述べる。パッケージメタデータを活用して良質なパッケージを識別し、サポートを最大7つのソフトウェアパッケージレジストリに拡張します。
論文参考訳（メタデータ） (2025-02-27T21:25:10Z)
A Machine Learning-Based Approach For Detecting Malicious PyPI Packages [4.311626046942916]
現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
論文参考訳（メタデータ） (2024-12-06T18:49:06Z)
An Empirical Study of Malicious Code In PyPI Ecosystem [15.739368369031277]
PyPIは便利なパッケージ管理プラットフォームを開発者に提供します。 PyPIエコシステムの急速な発展は、悪意のあるパッケージの伝播という深刻な問題を引き起こしている。 PyPIエコシステムにおける悪意のあるコードライフサイクルの特徴と現状を理解するための実証的研究を行う。
論文参考訳（メタデータ） (2023-09-20T02:51:02Z)
Killing Two Birds with One Stone: Malicious Package Detection in NPM and PyPI using a Single Model of Malicious Behavior Sequence [8.58275522939837]
パッケージレジストリ NPM と PyPI は悪意のあるパッケージで溢れている。既存の悪意あるNPMとPyPIパッケージ検出アプローチの有効性は、2つの課題によって妨げられている。我々は,NPMとPyPIの悪意あるパッケージを検出するためにCerebroを提案し,実装する。
論文参考訳（メタデータ） (2023-09-06T00:58:59Z)
On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。自動データ中毒パイプラインである textitAutoPoison を提案する。結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文参考訳（メタデータ） (2023-06-28T17:54:04Z)
Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文参考訳（メタデータ） (2022-02-12T04:16:41Z)
Tracking the risk of a deployed model and detecting harmful distribution shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文参考訳（メタデータ） (2021-10-12T17:21:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。