論文の概要: MalTool: Malicious Tool Attacks on LLM Agents
- arxiv url: http://arxiv.org/abs/2602.12194v1
- Date: Thu, 12 Feb 2026 17:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.959035
- Title: MalTool: Malicious Tool Attacks on LLM Agents
- Title(参考訳): MalTool: LLMエージェントの悪意あるツール攻撃
- Authors: Yuepeng Hu, Yuqi Jia, Mengyuan Li, Dawn Song, Neil Gong,
- Abstract要約: MalToolはLLMベースのフレームワークで、特定の悪意のある振る舞いを示すツールを合成する。
MalTool は LLM のコーディングが安全に対応している場合でも非常に有効であることを示す。
- 参考スコア(独自算出の注目度): 52.01975462609959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a malicious tool attack, an attacker uploads a malicious tool to a distribution platform; once a user installs the tool and the LLM agent selects it during task execution, the tool can compromise the user's security and privacy. Prior work primarily focuses on manipulating tool names and descriptions to increase the likelihood of installation by users and selection by LLM agents. However, a successful attack also requires embedding malicious behaviors in the tool's code implementation, which remains largely unexplored. In this work, we bridge this gap by presenting the first systematic study of malicious tool code implementations. We first propose a taxonomy of malicious tool behaviors based on the confidentiality-integrity-availability triad, tailored to LLM-agent settings. To investigate the severity of the risks posed by attackers exploiting coding LLMs to automatically generate malicious tools, we develop MalTool, a coding-LLM-based framework that synthesizes tools exhibiting specified malicious behaviors, either as standalone tools or embedded within otherwise benign implementations. To ensure functional correctness and structural diversity, MalTool leverages an automated verifier that validates whether generated tools exhibit the intended malicious behaviors and differ sufficiently from prior instances, iteratively refining generations until success. Our evaluation demonstrates that MalTool is highly effective even when coding LLMs are safety-aligned. Using MalTool, we construct two datasets of malicious tools: 1,200 standalone malicious tools and 5,287 real-world tools with embedded malicious behaviors. We further show that existing detection methods, including commercial malware detection approaches such as VirusTotal and methods tailored to the LLM-agent setting, exhibit limited effectiveness at detecting the malicious tools, highlighting an urgent need for new defenses.
- Abstract(参考訳): 悪意のあるツール攻撃では、攻撃者が悪意のあるツールを配布プラットフォームにアップロードする。ユーザがツールをインストールし、LLMエージェントがタスク実行中にそれを選択すれば、ツールがユーザのセキュリティとプライバシを侵害する可能性がある。
以前の作業は主に、ユーザによるインストールの可能性を高め、LLMエージェントによる選択を促進するために、ツール名と記述を操作することに焦点を当てていた。
しかし、攻撃を成功させるには、ツールのコード実装に悪意のある振る舞いを埋め込む必要がある。
本研究では,悪質なツールコードの実装に関する最初の体系的な研究を提示することによって,このギャップを埋める。
まず, LLMエージェントの設定に合わせて, 機密性・可利用性に基づく悪意あるツール行動の分類法を提案する。
LLMをコードする攻撃者が悪質なツールを自動生成するために悪質なツールを悪用するリスクの深刻さを調べるために、コードLLMベースのフレームワークであるMalToolを開発した。
機能的正しさと構造的多様性を保証するため、MalToolは自動検証を利用して、生成したツールが意図した悪意のある振る舞いを示すかどうかを検証する。
評価の結果,MalTool は LLM が安全に適合している場合でも有効であることがわかった。
MalToolを使って、1200のスタンドアロン悪意のあるツールと5,287の現実世界のツールを組み込んだ悪意のあるツールのデータセットを構築します。
さらに,LLMエージェント設定に適合したVrusTotalなどの商用マルウェア検出手法や方法を含む既存の検出手法は,悪意のあるツールの検出に限界があり,新たな防御の必要性が浮き彫りにされていることを示す。
関連論文リスト
- MCP-ITP: An Automated Framework for Implicit Tool Poisoning in MCP [22.063867518456743]
暗黙のツール中毒では、ツールメタデータに埋め込まれた悪意のある命令が、モデルコンテキストプロトコル(MCP)登録フェーズ中にエージェントコンテキストに注入される。
MCPエコシステム内での暗黙のツール中毒に対する最初の自動化および適応型フレームワークであるMPP-ITPを提案する。
論文 参考訳(メタデータ) (2026-01-12T10:28:46Z) - Prompt Injection Attack to Tool Selection in LLM Agents [60.95349602772112]
一般的なアプローチは、与えられたタスクに対してツールライブラリから最も適切なツールを選択するための2段階のプロセス(式と例選択)に従う。
本研究では、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択であるtextitToolHijackerを紹介する。
論文 参考訳(メタデータ) (2025-04-28T13:36:43Z) - MaLAware: Automating the Comprehension of Malicious Software Behaviours using Large Language Models (LLMs) [3.410195565199523]
MaLAwareは、生のマルウェアデータを人間可読な記述に変換するツールである。
MALAwareは、Cuckoo Sandboxの生成したレポートを処理し、悪性度を相関させ、簡潔な要約を生成する。
評価では,人間によるマルウェアの行動記述データセットを基礎的真理として用いた。
論文 参考訳(メタデータ) (2025-04-01T19:27:17Z) - From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection [11.300387488829035]
ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更した。
本稿では,LDMツールコールシステムの脆弱性を利用した対向型ツールインジェクションによる新しいフレームワークであるToolCommanderを提案する。
論文 参考訳(メタデータ) (2024-12-13T15:15:24Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。