論文の概要: ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection
- arxiv url: http://arxiv.org/abs/2604.11790v1
- Date: Mon, 13 Apr 2026 17:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.736884
- Title: ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection
- Title(参考訳): ClawGuard: ツール拡張LDMエージェントの間接的プロンプトインジェクションに対するランタイムセキュリティフレームワーク
- Authors: Wei Zhao, Zhe Li, Peixin Zhang, Jun Sun,
- Abstract要約: textscClawGuardは、すべてのツール呼び出し境界に設定されたユーザ確認ルールを強制する。
textscClawGuardは、モデル修正やインフラストラクチャの変更なしに、3つのインジェクションパスをすべてブロックする。
この研究は、安全なエージェントAIシステムのための効果的な防御メカニズムとして、決定論的ツールコール境界強制を確立する。
- 参考スコア(独自算出の注目度): 8.627671856044527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented Large Language Model (LLM) agents have demonstrated impressive capabilities in automating complex, multi-step real-world tasks, yet remain vulnerable to indirect prompt injection. Adversaries exploit this weakness by embedding malicious instructions within tool-returned content, which agents directly incorporate into their conversation history as trusted observations. This vulnerability manifests across three primary attack channels: web and local content injection, MCP server injection, and skill file injection. To address these vulnerabilities, we introduce \textsc{ClawGuard}, a novel runtime security framework that enforces a user-confirmed rule set at every tool-call boundary, transforming unreliable alignment-dependent defense into a deterministic, auditable mechanism that intercepts adversarial tool calls before any real-world effect is produced. By automatically deriving task-specific access constraints from the user's stated objective prior to any external tool invocation, \textsc{ClawGuard} blocks all three injection pathways without model modification or infrastructure change. Experiments across five state-of-the-art language models on AgentDojo, SkillInject, and MCPSafeBench demonstrate that \textsc{ClawGuard} achieves robust protection against indirect prompt injection without compromising agent utility. This work establishes deterministic tool-call boundary enforcement as an effective defense mechanism for secure agentic AI systems, requiring neither safety-specific fine-tuning nor architectural modification. Code is publicly available at https://github.com/Claw-Guard/ClawGuard.
- Abstract(参考訳): ツール強化されたLarge Language Model (LLM)エージェントは、複雑なマルチステップの現実世界のタスクを自動化できるが、間接的なプロンプトインジェクションには弱い。
敵は、悪意のある命令をツールが返却したコンテンツに埋め込むことで、この弱点を悪用する。
この脆弱性は、Webとローカルコンテンツインジェクション、MPPサーバインジェクション、スキルファイルインジェクションの3つの主要な攻撃チャネルにまたがる。
これらの脆弱性に対処するために、新しいランタイムセキュリティフレームワークである‘textsc{ClawGuard}を導入する。これは、すべてのツールコール境界に設定されたユーザ確認ルールを強制し、信頼できないアライメント依存の防御を、実際の効果が発生する前に相手ツールコールをインターセプトする決定論的監査可能なメカニズムに変換する。
外部ツールの呼び出しに先立って、ユーザの指定した目的からタスク固有のアクセス制約を自動的に引き出すことで、モデル修正やインフラストラクチャの変更なしに、すべての3つのインジェクションパスをブロックする。
AgentDojo, SkillInject, MCPSafeBenchの5つの最先端言語モデルに対する実験では,‘textsc{ClawGuard} がエージェントユーティリティを妥協することなく間接的なプロンプトインジェクションに対する堅牢な保護を実現している。
この研究は、安全なエージェントAIシステムのための効果的な防御メカニズムとして、決定論的ツールコール境界強制を確立し、安全固有の微調整もアーキテクチャの変更も必要としない。
コードはhttps://github.com/Claw-Guard/ClawGuardで公開されている。
関連論文リスト
- PlanGuard: Defending Agents against Indirect Prompt Injection via Planning-based Consistency Verification [1.7904458681854372]
PlanGuardは、コンテキスト分離の原則に基づいた、トレーニング不要の防御フレームワークである。
PlanGuardは攻撃を効果的に中和し、アタック成功率(ASR)を72.8%から0%に下げる。
論文 参考訳(メタデータ) (2026-04-11T09:59:46Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - AI Kill Switch for malicious web-based LLM agent [4.144114850905779]
本稿では、悪意のあるWebベースのLLMエージェントの動作を停止できるAI Kill Switch技術を提案する。
鍵となるアイデアは、悪意のあるLLMエージェントの安全メカニズムをトリガーする防御的なプロンプトを生成することだ。
AutoGuardは、さまざまな悪意のあるエージェントに対して80%以上の防衛成功率(DSR)を達成する。
論文 参考訳(メタデータ) (2025-09-26T02:20:46Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。