論文の概要: TRUSTDESC: Preventing Tool Poisoning in LLM Applications via Trusted Description Generation
- arxiv url: http://arxiv.org/abs/2604.07536v1
- Date: Wed, 08 Apr 2026 19:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.527567
- Title: TRUSTDESC: Preventing Tool Poisoning in LLM Applications via Trusted Description Generation
- Title(参考訳): TRUSTDESC:信頼された記述生成によるLLMアプリケーションにおけるツールポゾン防止
- Authors: Hengkai Ye, Zhechang Zhang, Jinyuan Jia, Hong Hu,
- Abstract要約: 大きな言語モデル(LLM)は、時間に敏感なタスクや実世界のアクションを実行するための外部ツールに依存している。
攻撃者は、悪意のある命令(明示的なTPA)を埋め込んでツール記述を操作したり、(単純なTPA)クレームを誤解してモデル動作やツール選択に影響を与える。
実装から信頼できるツール記述を自動的に生成することにより、ツール中毒を防止するための最初のフレームワークであるTRUSTDESCを提案する。
- 参考スコア(独自算出の注目度): 16.85010496624083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly rely on external tools to perform time-sensitive tasks and real-world actions. While tool integration expands LLM capabilities, it also introduces a new prompt-injection attack surface: tool poisoning attacks (TPAs). Attackers manipulate tool descriptions by embedding malicious instructions (explicit TPAs) or misleading claims (implicit TPAs) to influence model behavior and tool selection. Existing defenses mainly detect anomalous instructions and remain ineffective against implicit TPAs. In this paper, we present TRUSTDESC, the first framework for preventing tool poisoning by automatically generating trusted tool descriptions from implementations. TRUSTDESC derives implementation-faithful descriptions through a three-stage pipeline. SliceMin performs reachability-aware static analysis and LLM-guided debloating to extract minimal tool-relevant code slices. DescGen synthesizes descriptions from these slices while mitigating misleading or adversarial code artifacts. DynVer refines descriptions through dynamic verification by executing synthesized tasks and validating behavioral claims. We evaluate TRUSTDESC on 52 real-world tools across multiple tool ecosystems. Results show that TRUSTDESC produces accurate tool descriptions that improve task completion rates while mitigating implicit TPAs at their root, with minimal time and monetary overhead.
- Abstract(参考訳): 大きな言語モデル(LLM)は、時間に敏感なタスクや実世界のアクションを実行するための外部ツールに依存している。
ツール統合はLLM機能を拡張する一方で、新しいプロンプトインジェクションアタックサーフェス、ツール中毒アタック(TPAs)も導入されている。
攻撃者は、悪意のある命令(明示的なTPA)を埋め込んでツール記述を操作したり、(単純なTPA)クレームを誤解してモデル動作やツール選択に影響を与える。
既存の防御は、主に異常な指示を検知し、暗黙のTPAに対して効果を保たない。
本稿では,TRUSTDESCを提案する。TRUSTDESCは,実装から信頼できるツール記述を自動的に生成することで,ツール中毒を防止するための最初のフレームワークである。
TRUSTDESCは、3段階のパイプラインを通じて実装に忠実な記述を導出する。
SliceMinは、リーチビリティを意識した静的解析とLLM誘導のデブロ化を実行し、ツール関連の最小限のコードスライスを抽出する。
DescGenはこれらのスライスから記述を合成し、誤解を招くコードや逆のコードアーティファクトを緩和する。
DynVerは、動的検証を通じて記述を洗練し、合成されたタスクを実行し、振る舞いのクレームを検証する。
複数のツールエコシステムにまたがる52の現実世界のツール上でのTRUSTDESCを評価した。
その結果、TRUSTDESCはタスク完了率を向上させるための正確なツール記述を生成するとともに、暗黙のTPAをルートで最小限の時間と金銭的オーバーヘッドで軽減することを示した。
関連論文リスト
- Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution [18.50317396128381]
PASTEは、推測によってツールの遅延を隠すように設計されたPattern-Aware Speculative Tool Executionメソッドである。
PASTEは平均タスク完了時間を48.5%削減し、ツールの実行スループットを1.8倍改善する。
論文 参考訳(メタデータ) (2026-03-19T13:36:50Z) - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls [56.407063247662336]
本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。
GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-22T15:02:00Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - MalTool: Malicious Tool Attacks on LLM Agents [52.01975462609959]
MalToolはLLMベースのフレームワークで、特定の悪意のある振る舞いを示すツールを合成する。
MalTool は LLM のコーディングが安全に対応している場合でも非常に有効であることを示す。
論文 参考訳(メタデータ) (2026-02-12T17:27:43Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - MCP-ITP: An Automated Framework for Implicit Tool Poisoning in MCP [22.063867518456743]
暗黙のツール中毒では、ツールメタデータに埋め込まれた悪意のある命令が、モデルコンテキストプロトコル(MCP)登録フェーズ中にエージェントコンテキストに注入される。
MCPエコシステム内での暗黙のツール中毒に対する最初の自動化および適応型フレームワークであるMPP-ITPを提案する。
論文 参考訳(メタデータ) (2026-01-12T10:28:46Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。