論文の概要: ToolTweak: An Attack on Tool Selection in LLM-based Agents
- arxiv url: http://arxiv.org/abs/2510.02554v1
- Date: Thu, 02 Oct 2025 20:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.169649
- Title: ToolTweak: An Attack on Tool Selection in LLM-based Agents
- Title(参考訳): ToolTweak: LLMエージェントにおけるツール選択攻撃
- Authors: Jonathan Sneh, Ruomei Yan, Jialin Yu, Philip Torr, Yarin Gal, Sunando Sengupta, Eric Sommerlade, Alasdair Paren, Adel Bibi,
- Abstract要約: 対戦相手は,特定のツールの選択に対して,エージェントを体系的にバイアスし,等しく有能な代替手段に対して不公平な優位性を得ることができることを示す。
提案するToolTweakは,ベースラインの20%程度から最大81%までの選択率を向上する,軽量自動攻撃である。
これらのリスクを軽減するために、パラフレージングとパープレキシティ・フィルタリングという2つの防御効果を評価し、バイアスを低減し、エージェントが機能的に類似したツールをより平等に選択できるようにする。
- 参考スコア(独自算出の注目度): 52.17181489286236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs increasingly power agents that interact with external tools, tool use has become an essential mechanism for extending their capabilities. These agents typically select tools from growing databases or marketplaces to solve user tasks, creating implicit competition among tool providers and developers for visibility and usage. In this paper, we show that this selection process harbors a critical vulnerability: by iteratively manipulating tool names and descriptions, adversaries can systematically bias agents toward selecting specific tools, gaining unfair advantage over equally capable alternatives. We present ToolTweak, a lightweight automatic attack that increases selection rates from a baseline of around 20% to as high as 81%, with strong transferability between open-source and closed-source models. Beyond individual tools, we show that such attacks cause distributional shifts in tool usage, revealing risks to fairness, competition, and security in emerging tool ecosystems. To mitigate these risks, we evaluate two defenses: paraphrasing and perplexity filtering, which reduce bias and lead agents to select functionally similar tools more equally. All code will be open-sourced upon acceptance.
- Abstract(参考訳): LLMが外部ツールと対話するパワーエージェントが増えるにつれて、ツールの使用は、その機能を拡張する上で不可欠なメカニズムになっている。
これらのエージェントは一般的に、ユーザタスクを解決するために、データベースやマーケットプレースからツールを選択する。
本稿では,ツール名や記述を反復的に操作することで,特定のツールの選択に対してエージェントを体系的にバイアスし,同等に有能な代替手段に対して不公平な優位性を得ることができることを示す。
ToolTweakは,オープンソースモデルとクローズドソースモデル間の強力な転送性を備えた,ベースラインの20%前後から最大81%までの選択率を向上する,軽量自動攻撃である。
個々のツール以外にも、このような攻撃はツール利用の分散シフトを引き起こし、新興ツールエコシステムにおける公正性、競争、セキュリティに対するリスクを明らかにします。
これらのリスクを軽減するために、パラフレージングとパープレキシティ・フィルタリングという2つの防御効果を評価し、バイアスを低減し、エージェントが機能的に類似したツールをより平等に選択できるようにする。
すべてのコードは、受け入れ次第オープンソースになる。
関連論文リスト
- Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - AgenTRIM: Tool Risk Mitigation for Agentic AI [5.4672006013914975]
ツール駆動型エージェントリスクの検出と緩和のためのフレームワークであるAgenTRIMを紹介する。
AgenTRIMは、これらのリスクに相補的なオフラインおよびオンラインフェーズを通じて対処する。
AgenTRIMは、高いタスク性能を維持しながら、攻撃成功を大幅に削減する。
論文 参考訳(メタデータ) (2026-01-18T15:10:18Z) - Quantifying Distributional Robustness of Agentic Tool-Selection [8.457056023589951]
ツール選択の堅牢性を正式に認定する最初の統計フレームワークであるToolCertを紹介する。
本稿では,ToolCertが精度に高い信頼度を低下させ,エージェントの最悪の性能を定量的に評価することを示す。
偽装ツールを注入したり、検索を飽和させたりすることで、認証された精度はゼロ近く低下する。
論文 参考訳(メタデータ) (2025-10-05T01:50:34Z) - BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models [55.119657444627855]
大規模言語モデル(LLM)は、複数のプロバイダが機能的に同等のオプションを提供するマーケットプレースから引き出された外部ツールに依存していることが多い。
選択が体系的に偏りがある場合、ユーザエクスペリエンスを低下させ、競争を歪ませることができます。
ツール選択バイアスを評価するために,複数の機能的に等価なツールを含む多種多様なツールカテゴリのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-09-30T22:02:13Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - Prompt Injection Attack to Tool Selection in LLM Agents [60.95349602772112]
一般的なアプローチは、与えられたタスクに対してツールライブラリから最も適切なツールを選択するための2段階のプロセス(式と例選択)に従う。
本研究では、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択であるtextitToolHijackerを紹介する。
論文 参考訳(メタデータ) (2025-04-28T13:36:43Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection [11.300387488829035]
ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更した。
本稿では,LDMツールコールシステムの脆弱性を利用した対向型ツールインジェクションによる新しいフレームワークであるToolCommanderを提案する。
論文 参考訳(メタデータ) (2024-12-13T15:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。