論文の概要: OpenClaw PRISM: A Zero-Fork, Defense-in-Depth Runtime Security Layer for Tool-Augmented LLM Agents
- arxiv url: http://arxiv.org/abs/2603.11853v1
- Date: Thu, 12 Mar 2026 12:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.059779
- Title: OpenClaw PRISM: A Zero-Fork, Defense-in-Depth Runtime Security Layer for Tool-Augmented LLM Agents
- Title(参考訳): OpenClaw PRISM: ツール拡張LDMエージェントのためのゼロフォーク、ディフェンディングインディースランタイムセキュリティレイヤ
- Authors: Frank Li,
- Abstract要約: OpenClawベースのエージェントゲートウェイ用のゼロフォークランタイムセキュリティ層であるOpenClaw PRISMを提案する。
PRISMはプロセス内プラグインとオプションのサイドカーサービスを組み合わせることで、10つのライフサイクルフックに強制力を分散する。
エージェントランタイム設定におけるセキュリティの有効性,偽陽性,レイヤコントリビューション,ランタイムオーバーヘッド,運用復旧性を評価するための評価手法とベンチマークパイプラインについて概説する。
- 参考スコア(独自算出の注目度): 6.185334606321749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented LLM agents introduce security risks that extend beyond user-input filtering, including indirect prompt injection through fetched content, unsafe tool execution, credential leakage, and tampering with local control files. We present OpenClaw PRISM, a zero-fork runtime security layer for OpenClaw-based agent gateways. PRISM combines an in-process plugin with optional sidecar services and distributes enforcement across ten lifecycle hooks spanning message ingress, prompt construction, tool execution, tool-result persistence, outbound messaging, sub-agent spawning, and gateway startup. Rather than introducing a novel detection model, PRISM integrates a hybrid heuristic-plus-LLM scanning pipeline, conversation- and session-scoped risk accumulation with TTL-based decay, policy-enforced controls over tools, paths, private networks, domain tiers, and outbound secret patterns, and a tamper-evident audit and operations plane with integrity verification and hot-reloadable policy management. We outline an evaluation methodology and benchmark pipeline for measuring security effectiveness, false positives, layer contribution, runtime overhead, and operational recoverability in an agent-runtime setting, and we report current preliminary benchmark results on curated same-slice experiments and operational microbenchmarks. The system targets deployable runtime defense for real agent gateways rather than benchmark-only detection.
- Abstract(参考訳): ツール拡張LDMエージェントは、フェッチされたコンテンツへの間接的なプロンプトインジェクション、安全でないツールの実行、クレデンシャルリーク、ローカルコントロールファイルの改ざんなど、ユーザ入力フィルタリングを超えて広がるセキュリティリスクを導入する。
OpenClawベースのエージェントゲートウェイ用のゼロフォークランタイムセキュリティ層であるOpenClaw PRISMを提案する。
PRISMは、プロセス内プラグインとオプションのサイドカーサービスを組み合わせて、メッセージ入力、プロンプト構成、ツール実行、ツール-resultパーシステンス、アウトバウンドメッセージング、サブエージェント生成、ゲートウェイ起動にまたがる10のライフサイクルフックに強制を分散する。
新たな検出モデルを導入するのではなく、PRISMでは、ハイブリッドヒューリスティック+LLMスキャンパイプライン、TTLベースの崩壊による会話とセッションスコープによるリスク蓄積、ツール、パス、プライベートネットワーク、ドメイン層、アウトバウンドのシークレットパターンに対するポリシー強化コントロール、整合性検証とホットリロード可能なポリシ管理を備えたタンパーエビデント監査と運用プレーンを統合している。
我々は,エージェントランタイム設定におけるセキュリティの有効性,偽陽性,レイヤコントリビューション,ランタイムオーバヘッド,オペレーショナルリカバリ性を評価するための評価手法とベンチマークパイプラインについて概説する。
このシステムは、ベンチマークのみの検出ではなく、実際のエージェントゲートウェイのデプロイ可能なランタイムディフェンスをターゲットにしている。
関連論文リスト
- AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - OpenPort Protocol: A Security Governance Specification for AI Agent Tool Access [11.289770127178882]
本稿では,セキュアなサーバサイドゲートウェイを通じてアプリケーションツールを公開するためのガバナンスファースト仕様であるOpenPort Protocolを紹介する。
OpenPortは、認可に依存した発見、機械操作可能なテキストタグによる安定した応答エンベロープ、および統合証明書、スコープ化されたパーミッション、ABACスタイルのポリシー制約を組み合わせた認可モデルを定義する。
書き込み操作のために、OpenPortは、ドラフト作成とヒューマンレビューのデフォルトとなるリスクゲートライフサイクルを規定し、明示的なポリシーの下でタイムバウンド自動実行をサポートし、事前のインパクトバインディングやイデペント性を含むリスクの高い保護を強制する。
論文 参考訳(メタデータ) (2026-02-22T05:16:40Z) - MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents [39.267334469481916]
我々は,MPPベースのツールを呼び出す際に,エージェントのセキュリティを保証するプラグインセキュリティ認知層としてMPPShieldを提案する。
我々の研究は、オープンエージェントエコシステムにおけるMPPベースのツール呼び出しに対して、実用的で堅牢なセキュリティ保護を提供します。
論文 参考訳(メタデータ) (2026-02-15T19:10:00Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。