Fugu-MT 論文翻訳(概要): MalTool: Malicious Tool Attacks on LLM Agents

論文の概要: MalTool: Malicious Tool Attacks on LLM Agents

arxiv url: http://arxiv.org/abs/2602.12194v1
Date: Thu, 12 Feb 2026 17:27:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.959035
Title: MalTool: Malicious Tool Attacks on LLM Agents
Title（参考訳）: MalTool: LLMエージェントの悪意あるツール攻撃
Authors: Yuepeng Hu, Yuqi Jia, Mengyuan Li, Dawn Song, Neil Gong,
Abstract要約: MalToolはLLMベースのフレームワークで、特定の悪意のある振る舞いを示すツールを合成する。 MalTool は LLM のコーディングが安全に対応している場合でも非常に有効であることを示す。
参考スコア（独自算出の注目度）: 52.01975462609959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In a malicious tool attack, an attacker uploads a malicious tool to a distribution platform; once a user installs the tool and the LLM agent selects it during task execution, the tool can compromise the user's security and privacy. Prior work primarily focuses on manipulating tool names and descriptions to increase the likelihood of installation by users and selection by LLM agents. However, a successful attack also requires embedding malicious behaviors in the tool's code implementation, which remains largely unexplored. In this work, we bridge this gap by presenting the first systematic study of malicious tool code implementations. We first propose a taxonomy of malicious tool behaviors based on the confidentiality-integrity-availability triad, tailored to LLM-agent settings. To investigate the severity of the risks posed by attackers exploiting coding LLMs to automatically generate malicious tools, we develop MalTool, a coding-LLM-based framework that synthesizes tools exhibiting specified malicious behaviors, either as standalone tools or embedded within otherwise benign implementations. To ensure functional correctness and structural diversity, MalTool leverages an automated verifier that validates whether generated tools exhibit the intended malicious behaviors and differ sufficiently from prior instances, iteratively refining generations until success. Our evaluation demonstrates that MalTool is highly effective even when coding LLMs are safety-aligned. Using MalTool, we construct two datasets of malicious tools: 1,200 standalone malicious tools and 5,287 real-world tools with embedded malicious behaviors. We further show that existing detection methods, including commercial malware detection approaches such as VirusTotal and methods tailored to the LLM-agent setting, exhibit limited effectiveness at detecting the malicious tools, highlighting an urgent need for new defenses.
Abstract（参考訳）: 悪意のあるツール攻撃では、攻撃者が悪意のあるツールを配布プラットフォームにアップロードする。ユーザがツールをインストールし、LLMエージェントがタスク実行中にそれを選択すれば、ツールがユーザのセキュリティとプライバシを侵害する可能性がある。以前の作業は主に、ユーザによるインストールの可能性を高め、LLMエージェントによる選択を促進するために、ツール名と記述を操作することに焦点を当てていた。しかし、攻撃を成功させるには、ツールのコード実装に悪意のある振る舞いを埋め込む必要がある。本研究では,悪質なツールコードの実装に関する最初の体系的な研究を提示することによって,このギャップを埋める。まず, LLMエージェントの設定に合わせて, 機密性・可利用性に基づく悪意あるツール行動の分類法を提案する。 LLMをコードする攻撃者が悪質なツールを自動生成するために悪質なツールを悪用するリスクの深刻さを調べるために、コードLLMベースのフレームワークであるMalToolを開発した。機能的正しさと構造的多様性を保証するため、MalToolは自動検証を利用して、生成したツールが意図した悪意のある振る舞いを示すかどうかを検証する。評価の結果,MalTool は LLM が安全に適合している場合でも有効であることがわかった。 MalToolを使って、1200のスタンドアロン悪意のあるツールと5,287の現実世界のツールを組み込んだ悪意のあるツールのデータセットを構築します。さらに,LLMエージェント設定に適合したVrusTotalなどの商用マルウェア検出手法や方法を含む既存の検出手法は,悪意のあるツールの検出に限界があり,新たな防御の必要性が浮き彫りにされていることを示す。

関連論文リスト

Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls [56.407063247662336]
本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。 GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
論文参考訳（メタデータ） (2026-02-22T15:02:00Z)
AgenTRIM: Tool Risk Mitigation for Agentic AI [5.4672006013914975]
ツール駆動型エージェントリスクの検出と緩和のためのフレームワークであるAgenTRIMを紹介する。 AgenTRIMは、これらのリスクに相補的なオフラインおよびオンラインフェーズを通じて対処する。 AgenTRIMは、高いタスク性能を維持しながら、攻撃成功を大幅に削減する。
論文参考訳（メタデータ） (2026-01-18T15:10:18Z)
ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。 LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文参考訳（メタデータ） (2026-01-15T07:54:32Z)
MCP-ITP: An Automated Framework for Implicit Tool Poisoning in MCP [22.063867518456743]
暗黙のツール中毒では、ツールメタデータに埋め込まれた悪意のある命令が、モデルコンテキストプロトコル(MCP)登録フェーズ中にエージェントコンテキストに注入される。 MCPエコシステム内での暗黙のツール中毒に対する最初の自動化および適応型フレームワークであるMPP-ITPを提案する。
論文参考訳（メタデータ） (2026-01-12T10:28:46Z)
ToolTweak: An Attack on Tool Selection in LLM-based Agents [52.17181489286236]
対戦相手は,特定のツールの選択に対して,エージェントを体系的にバイアスし,等しく有能な代替手段に対して不公平な優位性を得ることができることを示す。提案するToolTweakは,ベースラインの20%程度から最大81%までの選択率を向上する,軽量自動攻撃である。これらのリスクを軽減するために、パラフレージングとパープレキシティ・フィルタリングという2つの防御効果を評価し、バイアスを低減し、エージェントが機能的に類似したツールをより平等に選択できるようにする。
論文参考訳（メタデータ） (2025-10-02T20:44:44Z)
Prompt Injection Attack to Tool Selection in LLM Agents [60.95349602772112]
一般的なアプローチは、与えられたタスクに対してツールライブラリから最も適切なツールを選択するための2段階のプロセス(式と例選択)に従う。本研究では、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択であるtextitToolHijackerを紹介する。
論文参考訳（メタデータ） (2025-04-28T13:36:43Z)
MaLAware: Automating the Comprehension of Malicious Software Behaviours using Large Language Models (LLMs) [3.410195565199523]
MaLAwareは、生のマルウェアデータを人間可読な記述に変換するツールである。 MALAwareは、Cuckoo Sandboxの生成したレポートを処理し、悪性度を相関させ、簡潔な要約を生成する。評価では,人間によるマルウェアの行動記述データセットを基礎的真理として用いた。
論文参考訳（メタデータ） (2025-04-01T19:27:17Z)
From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection [11.300387488829035]
ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更した。本稿では,LDMツールコールシステムの脆弱性を利用した対向型ツールインジェクションによる新しいフレームワークであるToolCommanderを提案する。
論文参考訳（メタデータ） (2024-12-13T15:15:24Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文参考訳（メタデータ） (2023-05-26T17:50:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。