論文の概要: Quantifying Distributional Robustness of Agentic Tool-Selection
- arxiv url: http://arxiv.org/abs/2510.03992v1
- Date: Sun, 05 Oct 2025 01:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.375991
- Title: Quantifying Distributional Robustness of Agentic Tool-Selection
- Title(参考訳): エージェントツールの選択における分布ロバストさの定量化
- Authors: Jehyeok Yeon, Isha Chaudhary, Gagandeep Singh,
- Abstract要約: ツール選択の堅牢性を正式に認定する最初の統計フレームワークであるToolCertを紹介する。
本稿では,ToolCertが精度に高い信頼度を低下させ,エージェントの最悪の性能を定量的に評価することを示す。
偽装ツールを注入したり、検索を飽和させたりすることで、認証された精度はゼロ近く低下する。
- 参考スコア(独自算出の注目度): 8.457056023589951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in agentic systems where they map user intents to relevant external tools to fulfill a task. A critical step in this process is tool selection, where a retriever first surfaces candidate tools from a larger pool, after which the LLM selects the most appropriate one. This pipeline presents an underexplored attack surface where errors in selection can lead to severe outcomes like unauthorized data access or denial of service, all without modifying the agent's model or code. While existing evaluations measure task performance in benign settings, they overlook the specific vulnerabilities of the tool selection mechanism under adversarial conditions. To address this gap, we introduce ToolCert, the first statistical framework that formally certifies tool selection robustness. ToolCert models tool selection as a Bernoulli success process and evaluates it against a strong, adaptive attacker who introduces adversarial tools with misleading metadata, and are iteratively refined based on the agent's previous choices. By sampling these adversarial interactions, ToolCert produces a high-confidence lower bound on accuracy, formally quantifying the agent's worst-case performance. Our evaluation with ToolCert uncovers the severe fragility: under attacks injecting deceptive tools or saturating retrieval, the certified accuracy bound drops near zero, an average performance drop of over 60% compared to non-adversarial settings. For attacks targeting the retrieval and selection stages, the certified accuracy bound plummets to less than 20% after just a single round of adversarial adaptation. ToolCert thus reveals previously unexamined security threats inherent to tool selection and provides a principled method to quantify an agent's robustness to such threats, a necessary step for the safe deployment of agentic systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はエージェントシステムにますますデプロイされ、タスクを達成するためにユーザ意図を関連する外部ツールにマッピングする。
このプロセスにおける重要なステップはツールの選択であり、レトリバーがまず大きなプールから候補ツールを抽出し、次にLLMが最も適切なツールを選択する。
このパイプラインは、選択中のエラーが、エージェントのモデルやコードを変更することなく、不正なデータアクセスやサービス拒否といった深刻な結果をもたらす、未調査の攻撃面を示す。
既存の評価では、良質な設定でのタスクパフォーマンスを計測する一方で、ツール選択メカニズムの特定の脆弱性を敵の条件下で見落としている。
このギャップに対処するために、ツール選択の堅牢性を正式に認定する最初の統計フレームワークであるToolCertを紹介します。
ToolCertはツールの選択をBernoulliの成功プロセスとしてモデル化し、それを強力な適応攻撃者に対して評価する。
これらの敵の相互作用をサンプリングすることにより、ToolCertは精度に高い信頼度を低くし、エージェントの最悪のパフォーマンスを正式に定量化する。
偽装ツールを注入したり、検索を飽和させたりすることで、認証された精度はゼロに近づき、平均性能は非敵の設定に比べて60%以上低下する。
検索および選択段階をターゲットにした攻撃では、認証された精度は、たった1ラウンドの敵適応の後に20%未満に制限される。
ToolCertは、ツール選択に固有の未検討のセキュリティ脅威を明らかにし、エージェントのこのような脅威に対する堅牢性を定量化する原則的な方法、エージェントシステムの安全なデプロイに必要なステップを提供する。
関連論文リスト
- ToolTweak: An Attack on Tool Selection in LLM-based Agents [52.17181489286236]
対戦相手は,特定のツールの選択に対して,エージェントを体系的にバイアスし,等しく有能な代替手段に対して不公平な優位性を得ることができることを示す。
提案するToolTweakは,ベースラインの20%程度から最大81%までの選択率を向上する,軽量自動攻撃である。
これらのリスクを軽減するために、パラフレージングとパープレキシティ・フィルタリングという2つの防御効果を評価し、バイアスを低減し、エージェントが機能的に類似したツールをより平等に選択できるようにする。
論文 参考訳(メタデータ) (2025-10-02T20:44:44Z) - BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models [55.119657444627855]
大規模言語モデル(LLM)は、複数のプロバイダが機能的に同等のオプションを提供するマーケットプレースから引き出された外部ツールに依存していることが多い。
選択が体系的に偏りがある場合、ユーザエクスペリエンスを低下させ、競争を歪ませることができます。
ツール選択バイアスを評価するために,複数の機能的に等価なツールを含む多種多様なツールカテゴリのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-09-30T22:02:13Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - Prompt Injection Attack to Tool Selection in LLM Agents [60.95349602772112]
一般的なアプローチは、与えられたタスクに対してツールライブラリから最も適切なツールを選択するための2段階のプロセス(式と例選択)に従う。
本研究では、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択であるtextitToolHijackerを紹介する。
論文 参考訳(メタデータ) (2025-04-28T13:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。