論文の概要: Prompt Injection Attack to Tool Selection in LLM Agents
- arxiv url: http://arxiv.org/abs/2504.19793v1
- Date: Mon, 28 Apr 2025 13:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.45145
- Title: Prompt Injection Attack to Tool Selection in LLM Agents
- Title(参考訳): LLM剤の工具選択に対するプロンプト注入攻撃
- Authors: Jiawen Shi, Zenghui Yuan, Guiyao Tie, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun,
- Abstract要約: textitToolHijackerは、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択である。
ToolHijackerは、LLMエージェントのツール選択プロセスを操作するために、悪意のあるツールドキュメントをツールライブラリに注入する。
ToolHijackerは非常に効果的で、既存の手動および自動プロンプトインジェクション攻撃よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 74.90338504778781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool selection is a key component of LLM agents. The process operates through a two-step mechanism - \emph{retrieval} and \emph{selection} - to pick the most appropriate tool from a tool library for a given task. In this work, we introduce \textit{ToolHijacker}, a novel prompt injection attack targeting tool selection in no-box scenarios. ToolHijacker injects a malicious tool document into the tool library to manipulate the LLM agent's tool selection process, compelling it to consistently choose the attacker's malicious tool for an attacker-chosen target task. Specifically, we formulate the crafting of such tool documents as an optimization problem and propose a two-phase optimization strategy to solve it. Our extensive experimental evaluation shows that ToolHijacker is highly effective, significantly outperforming existing manual-based and automated prompt injection attacks when applied to tool selection. Moreover, we explore various defenses, including prevention-based defenses (StruQ and SecAlign) and detection-based defenses (known-answer detection, perplexity detection, and perplexity windowed detection). Our experimental results indicate that these defenses are insufficient, highlighting the urgent need for developing new defense strategies.
- Abstract(参考訳): ツールの選択はLLMエージェントの重要なコンポーネントである。
このプロセスは2段階のメカニズム、 \emph{retrieval} と \emph{selection} を通じて動作し、与えられたタスクに対してツールライブラリから最も適切なツールを選択する。
In this work, we introduced \textit{ToolHijacker}, a novel prompt Injection attack targeting tool selection in no-box scenarios。
ToolHijackerは、LLMエージェントのツール選択プロセスを操作するために、ツールライブラリに悪意のあるツールドキュメントを注入する。
具体的には、そのようなツール文書の製作を最適化問題として定式化し、それを解くための2相最適化戦略を提案する。
ツールの選択に適用した場合,ToolHijackerは既存の手動および自動プロンプトインジェクション攻撃を著しく上回っている。
さらに,予防ベースディフェンス(StruQとSecAlign)や検出ベースディフェンス(既知の問合せ検出,パープレキシティ検出,パープレキシティウィンドウ検出)など,さまざまなディフェンスについても検討する。
実験の結果,これらの防衛は不十分であることが示唆され,新たな防衛戦略開発への緊急の必要性が浮き彫りにされている。
関連論文リスト
- Select Me! When You Need a Tool: A Black-box Text Attack on Tool Selection [21.72195531150256]
ツール学習は、大きな言語モデルの能力を拡張する強力な補助メカニズムとして機能する。
これまでの研究は主に、呼び出されたツールのアウトプットを誤った、あるいは悪意のあるものにする方法に重点を置いてきた。
我々は,ブラックボックスによるテキストベースの攻撃を初めて導入し,選択対象ツールの確率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-07T08:04:23Z) - ToolFuzz -- Automated Agent Tool Testing [5.174808367448261]
ToolFuzzは,(1)ツール実行時のエラーにつながるユーザクエリと,(2)誤ったエージェント応答につながるユーザクエリの2つのタイプのエラーを検出するように設計されている。
ToolFuzzは、プロンプトエンジニアリングのアプローチと比較して、20倍の誤入力を識別する。
論文 参考訳(メタデータ) (2025-03-06T14:29:52Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection [11.300387488829035]
ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更した。
本稿では,LDMツールコールシステムの脆弱性を利用した対向型ツールインジェクションによる新しいフレームワークであるToolCommanderを提案する。
論文 参考訳(メタデータ) (2024-12-13T15:15:24Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - Optimization-based Prompt Injection Attack to LLM-as-a-Judge [78.20257854455562]
LLM-as-a-Judgeは、大きな言語モデル(LLM)を使用して、ある質問に対する候補セットから最適な応答を選択する。
LLM-as-a-Judgeに対する最適化に基づくプロンプトインジェクション攻撃であるJiceDeceiverを提案する。
評価の結果,JiceDeceiveは既存のプロンプトインジェクション攻撃よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2024-03-26T13:58:00Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。