論文の概要: ToolFlood: Beyond Selection -- Hiding Valid Tools from LLM Agents via Semantic Covering
- arxiv url: http://arxiv.org/abs/2603.13950v1
- Date: Sat, 14 Mar 2026 13:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.504845
- Title: ToolFlood: Beyond Selection -- Hiding Valid Tools from LLM Agents via Semantic Covering
- Title(参考訳): ToolFlood: セレクションを超えて -- セマンティックカバレッジを通じてLLMエージェントからバリデーションツールを隠蔽する
- Authors: Hussein Jawad, Nicolas J-B Brunel,
- Abstract要約: 本稿では,ツール拡張型Large Language Model (LLM)エージェントに対する検索層攻撃であるToolFloodを紹介する。
検索後にどのツールが選択されるかを変更するのではなく、ToolFloodは、いくつかのアタッカー制御ツールを注入することで、検索自体を圧倒する。
ToolFloodは、95%のアタック成功率と低インジェクション率を実現している。
- 参考スコア(独自算出の注目度): 2.6928305857508974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents increasingly use external tools for complex tasks and rely on embedding-based retrieval to select a small top-k subset for reasoning. As these systems scale, the robustness of this retrieval stage is underexplored, even though prior work has examined attacks on tool selection. This paper introduces ToolFlood, a retrieval-layer attack on tool-augmented LLM agents. Rather than altering which tool is chosen after retrieval, ToolFlood overwhelms retrieval itself by injecting a few attacker-controlled tools whose metadata is carefully placed by exploiting the geometry of embedding space. These tools semantically span many user queries, dominate the top-k results, and push all benign tools out of the agent's context. ToolFlood uses a two-phase adversarial tool generation strategy. It first samples subsets of target queries and uses an LLM to iteratively generate diverse tool names and descriptions. It then runs an iterative greedy selection that chooses tools maximizing coverage of remaining queries in embedding space under a cosine-distance threshold, stopping when all queries are covered or a budget is reached. We provide theoretical analysis of retrieval saturation and show on standard benchmarks that ToolFlood achieves up to a 95% attack success rate with a low injection rate (1% in ToolBench). The code will be made publicly available at the following link: https://github.com/as1-prog/ToolFlood
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、複雑なタスクに外部ツールを使い、推論のために小さなトップkサブセットを選択するために埋め込みベースの検索に依存している。
これらのシステムの規模が拡大するにつれて、ツール選択に対する攻撃を事前に検討したにもかかわらず、この検索段階のロバスト性は過小評価されている。
本稿では,ツール拡張LDMエージェントに対する検索層攻撃であるToolFloodを紹介する。
検索後にどのツールを選択するかを変更する代わりに、ToolFloodは、埋め込みスペースの幾何学を利用してメタデータを注意深く配置するアタッカー制御ツールを注入することで、検索自体を圧倒する。
これらのツールは、多くのユーザクエリにセマンティックに分散し、トップkの結果を支配し、すべての良質なツールをエージェントのコンテキストから追い出す。
ToolFloodは2段階のツール生成戦略を使用する。
まずターゲットクエリのサブセットをサンプリングし、LLMを使用してさまざまなツール名と記述を反復的に生成する。
次に、反復的な欲求選択を実行し、すべてのクエリがカバーされたり、予算が到達した時に停止する、余分なクエリをcosine-distanceのしきい値の下に埋め込んだスペースでカバレッジを最大化するツールを選択する。
本稿では,検索飽和の理論的解析を行い,ToolFloodが95%の攻撃成功率(ToolBenchでは1%)を達成できる標準ベンチマークを示す。
コードは以下のリンクで公開される。 https://github.com/as1-prog/ToolFlood
関連論文リスト
- ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。
このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。
構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-09T04:11:16Z) - MassTool: A Multi-Task Search-Based Tool Retrieval Framework for Large Language Models [45.63804847907601]
MassToolは、クエリ表現とツール検索の精度を向上させるために設計されたマルチタスク検索ベースのフレームワークである。
関数呼び出しの必要性を予測するツール使用検知塔と、クエリ中心のグラフ畳み込みネットワーク(QC-GCN)を活用して効率的なクエリツールマッチングを行うツール検索塔である。
MassToolは、ツール使用の検出損失、リストワイズ検索損失、コントラスト正規化損失を共同で最適化することにより、厳密なクエリ理解のための堅牢な2段階のシーケンシャル意思決定パイプラインを確立する。
論文 参考訳(メタデータ) (2025-07-01T07:02:26Z) - Efficient and Scalable Estimation of Tool Representations in Vector Space [34.767193045989515]
ツール検索のための合成データを生成するためのフレームワークと,小型エンコーダモデルを用いた効率的なデータ駆動型ツール検索戦略を提案する。
ToolBankは、実際のユーザ利用を反映した、新しいツール検索データセットです。
これらの新しい方法により、ToolBenchデータセット上のRecall@Kで最大27.28、ToolBank上のRecall@Kで30.5の改善を実現しています。
論文 参考訳(メタデータ) (2024-09-02T19:39:24Z) - Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。