Fugu-MT 論文翻訳(概要): Many Hands Make Light Work: An LLM-based Multi-Agent System for Detecting Malicious PyPI Packages

論文の概要: Many Hands Make Light Work: An LLM-based Multi-Agent System for Detecting Malicious PyPI Packages

arxiv url: http://arxiv.org/abs/2601.12148v3
Date: Sun, 25 Jan 2026 20:02:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-27 15:23:06.8071
Title: Many Hands Make Light Work: An LLM-based Multi-Agent System for Detecting Malicious PyPI Packages
Title（参考訳）: LLMをベースとしたPyPIパッケージ検出用マルチエージェントシステム
Authors: Muhammad Umar Zeshan, Motunrayo Ibiyo, Claudio Di Sipio, Phuong T. Nguyen, Davide Di Ruscio,
Abstract要約: PyPIのようなオープンソースリポジトリの悪意のあるコードは、ソフトウェアサプライチェーンに対する脅威が増大している。本稿では,悪質なPyPIパッケージを検出するために協調言語モデルを用いたマルチエージェントシステムであるLAMPSを提案する。
参考スコア（独自算出の注目度）: 3.7667883869699597
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Malicious code in open-source repositories such as PyPI poses a growing threat to software supply chains. Traditional rule-based tools often overlook the semantic patterns in source code that are crucial for identifying adversarial components. Large language models (LLMs) show promise for software analysis, yet their use in interpretable and modular security pipelines remains limited. This paper presents LAMPS, a multi-agent system that employs collaborative LLMs to detect malicious PyPI packages. The system consists of four role-specific agents for package retrieval, file extraction, classification, and verdict aggregation, coordinated through the CrewAI framework. A prototype combines a fine-tuned CodeBERT model for classification with LLaMA-3 agents for contextual reasoning. LAMPS has been evaluated on two complementary datasets: D1, a balanced collection of 6,000 setup.py files, and D2, a realistic multi-file dataset with 1,296 files and natural class imbalance. On D1, LAMPS achieves 97.7% accuracy, surpassing MPHunter--one of the state-of-the-art approaches. On D2, it reaches 99.5% accuracy and 99.5% balanced accuracy, outperforming RAG-based approaches and fine-tuned single-agent baselines. McNemar's test confirmed these improvements as highly significant. The results demonstrate the feasibility of distributed LLM reasoning for malicious code detection and highlight the benefits of modular multi-agent designs in software supply chain security.
Abstract（参考訳）: PyPIのようなオープンソースリポジトリの悪意のあるコードは、ソフトウェアサプライチェーンに対する脅威が増大している。従来のルールベースのツールは、しばしば、敵のコンポーネントを特定するのに不可欠なソースコードのセマンティックなパターンを見落としている。大規模言語モデル(LLM)は、ソフトウェア分析の約束を示すが、解釈可能でモジュラーなセキュリティパイプラインでの使用は制限されている。本稿では,PyPIパッケージの検出に協調的なLLMを用いたマルチエージェントシステムであるLAMPSを提案する。このシステムは、CrewAIフレームワークを介して調整されたパッケージ検索、ファイル抽出、分類、検証アグリゲーションのための4つのロール固有エージェントで構成されている。プロトタイプは、分類のための微調整のCodeBERTモデルと文脈推論のためのLLaMA-3エージェントを組み合わせている。 LAMPSは2つの補完的なデータセットで評価されている。D1、6,000のsetup.pyファイルのバランスの取れたコレクション、D2、1,296ファイルのリアルなマルチファイルデータセット、および自然クラス不均衡である。 D1では、LAMPSは97.7%の精度でMPHunterを上回り、最先端のアプローチの1つである。 D2では、99.5%の精度と99.5%のバランスの取れた精度に達し、RAGベースのアプローチと微調整された単一エージェントベースラインを上回っている。マクネマールの試験ではこれらの改良は極めて重要であると確認された。その結果、悪意のあるコード検出のための分散LLM推論の実現可能性を示し、ソフトウェアサプライチェーンセキュリティにおけるモジュール型マルチエージェント設計の利点を強調した。

関連論文リスト

Mind the Gap: Evaluating LLMs for High-Level Malicious Package Detection vs. Fine-Grained Indicator Identification [1.1103813686369686]
大きな言語モデル(LLM)が自動セキュリティタスクのための有望なツールとして登場した。本稿では,悪意のあるソフトウェアパッケージを検出するために,13個のLSMを体系的に評価する。
論文参考訳（メタデータ） (2026-02-18T09:36:46Z)
Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文参考訳（メタデータ） (2025-10-02T06:25:10Z)
Binary Diff Summarization using Large Language Models [17.877160310535942]
大型言語モデル(LLM)は、従来のツールを拡張するためにバイナリ分析に適用されている。 LLMを用いた二項差分要約のための新しいフレームワークを提案する。 6つのオープンソースプロジェクトに3つの異なるマルウェアを注入することで、ソフトウェアサプライチェーンセキュリティベンチマークを作成します。
論文参考訳（メタデータ） (2025-09-28T16:47:24Z)
AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。 Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。 AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文参考訳（メタデータ） (2025-09-03T13:42:14Z)
MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-08-13T19:14:48Z)
MalGuard: Towards Real-Time, Accurate, and Actionable Detection of Malicious Packages in PyPI Ecosystem [11.834078597426409]
PyPIの安全性と安定性を確保する上で、悪意あるパッケージ検出が重要な課題となっている。既存の検出アプローチは、従来の機械学習(ML)モデルから大規模言語モデル(LLM)へと進化する、モデル選択の進歩に重点を置いている。グラフ中心性解析とLIME(Local Interpretable Model-Agnostic Explanations)アルゴリズムに基づくMalGuard手法を提案する。
論文参考訳（メタデータ） (2025-06-17T12:30:56Z)
Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification [6.008384763761687]
大規模言語モデル(LLM)は、現代のアプリケーションにおいて重要なソフトウェアコンポーネントである。類似性検出と家族分類のための勾配型フィンガープリントフレームワークGuardを提示する。本稿では,ランダムな入力摂動に対する応答を解析することにより,モデル固有の行動シグネチャを抽出する。広く採用されているセーフテンソルフォーマットをサポートし、勾配特性の統計解析を通じて高次元指紋を構築する。
論文参考訳（メタデータ） (2025-06-02T13:08:01Z)
LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [8.166584296080805]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。 49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文参考訳（メタデータ） (2025-05-13T06:26:13Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。 MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。