論文の概要: AgentWall: A Runtime Safety Layer for Local AI Agents
- arxiv url: http://arxiv.org/abs/2605.16265v1
- Date: Tue, 24 Mar 2026 11:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.83638
- Title: AgentWall: A Runtime Safety Layer for Local AI Agents
- Title(参考訳): AgentWall: ローカルAIエージェントのランタイムセーフティレイヤ
- Authors: Ashwin Aravind,
- Abstract要約: AgentWallは、ローカルAIエージェントのランタイム安全性と可観測性レイヤである。
ホスト環境に到達する前に提案されたすべてのエージェントアクションをインターセプトし、明示的な宣言的なポリシーで評価し、機密性の高い操作に対して人間の承認を必要とし、監査と再生のための完全な実行パスを記録します。
本稿では,AgentWallの設計,アーキテクチャ,脅威モデル,およびポリシーモデルについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safety of autonomous AI agents is increasingly recognized as a critical open problem. As agents transition from passive text generators to active actors capable of executing shell commands, modifying files, calling APIs, and browsing the web, the consequences of unsafe or adversarially manipulated behavior become immediate and tangible. Existing AI safety work has focused primarily on model alignment and input filtering, but these approaches do not address what happens at the moment an agent's intent becomes a real action on a real machine. This gap is especially acute in local environments, where developers run agents against their own filesystems, credentials, and infrastructure with little runtime control. This paper introduces AgentWall, a runtime safety and observability layer for local AI agents. AgentWall intercepts every proposed agent action before it reaches the host environment, evaluates it against an explicit declarative policy, requires human approval for sensitive operations, and records a complete execution trail for audit and replay. It is implemented as a policy-enforcing MCP proxy and native OpenClaw plugin, working across Claude Desktop, Cursor, Windsurf, Claude Code, and OpenClaw with a single install command. We present the design, architecture, threat model, and policy model of AgentWall, and demonstrate 92.9% policy enforcement accuracy with sub-millisecond overhead across 14 benchmark tests. AgentWall is open-source at https://github.com/agentwall/Agentwall.
- Abstract(参考訳): 自律型AIエージェントの安全性は、ますます重要なオープン問題として認識されている。
エージェントがパッシブテキストジェネレータからアクティブアクターに移行し、シェルコマンドを実行し、ファイルを変更し、APIを呼び出し、Webを閲覧するようになると、安全でない、あるいは逆向きに操作された振る舞いの結果は即時かつ具体的になる。
既存のAI安全作業は、主にモデルアライメントと入力フィルタリングに重点を置いているが、これらのアプローチは、エージェントの意図が実際のマシンで実際のアクションになる時に何が起こるかに対処していない。
このギャップは、開発者が自身のファイルシステム、認証、インフラストラクチャに対してエージェントを実行し、実行時の制御がほとんどないローカル環境で特に深刻である。
本稿では,ローカルAIエージェントのランタイム安全性と可観測性レイヤであるAgentWallを紹介する。
AgentWallはホスト環境に到達する前に提案されたすべてのエージェントアクションをインターセプトし、明示的な宣言的なポリシーで評価し、機密性の高い操作に対して人間の承認を必要とし、監査と再生のための完全な実行パスを記録する。
ポリシー強化のMPPプロキシとネイティブなOpenClawプラグインとして実装されており、Claude Desktop、Cursor、Windsurf、Claude Code、OpenClawを1つのインストールコマンドで実行できる。
本稿では,AgentWallの設計,アーキテクチャ,脅威モデル,およびポリシーモデルについて述べる。
AgentWallはhttps://github.com/agentwall/Agentwall.comでオープンソース化されている。
関連論文リスト
- DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents [121.77550256034]
DecodingTrust-Agent Platform (DTap)は、AIエージェントのためのコントロール可能でインタラクティブなレッドチームプラットフォームである。
DTap-Redは、多様なインジェクションベクターを探索し、効果的な攻撃戦略を自律的に発見する、最初の自律的赤チームエージェントである。
DTapを通じて、さまざまなバックボーンモデル上に構築された一般的なAIエージェントの大規模評価を行う。
論文 参考訳(メタデータ) (2026-05-06T11:59:48Z) - Agent2Agent Threats in Safety-Critical LLM Assistants: A Human-Centric Taxonomy [4.058281338403478]
本稿では,攻撃経路解析から資産識別を分離するAgentHeLLMという脅威モデリングフレームワークを提案する。
我々は、調和指向の「市民モデリング」から派生した人間中心の資産分類を導入し、人権の普遍宣言に触発された。
本稿では,オープンソースのアタックパス提案ツールであるAgentHeLLMアタックパスジェネレータを用いて,フレームワークの実用性を示す。
論文 参考訳(メタデータ) (2026-02-05T16:53:41Z) - AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior [20.817336331051752]
AgentGuardianは、コンテキスト対応アクセス制御ポリシーを強制することによって、AIエージェントの操作を統制し、保護する。
正常なエージェント機能を保持しながら、悪意のある入力や誤解を招く入力を効果的に検出する。
論文 参考訳(メタデータ) (2026-01-15T14:33:36Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - ceLLMate: Sandboxing Browser AI Agents [16.060034673487287]
本稿では,ブラウザレベルのサンドボックスフレームワークであるceLLMateを提案する。
ceLLMateは、ウェブサイトが発行する必須ポリシーと、ユーザの自然言語タスクからこれらのポリシーを適応およびインスタンス化する自動ポリシー予測レイヤをペアリングする。
エージェントに依存しないブラウザ拡張としてceLLMateを実装し、サンドボックスポリシーによって様々な種類のプロンプトインジェクション攻撃を無視可能なオーバーヘッドで効果的にブロックできることを実証する。
論文 参考訳(メタデータ) (2025-12-14T08:25:31Z) - Who Grants the Agent Power? Defending Against Instruction Injection via Task-Centric Access Control [25.109590157742712]
我々は、動的にタスクスコープ化されたパーミッションを強制する軽量ランタイムアクセス制御フレームワークであるAgentSentryを紹介する。
広範囲で永続的な許可を与える代わりに、AgentSentryは、最小限の一時的なポリシーを動的に生成し、強制する。
我々は,エージェントがプライベートメールの転送に騙されるようなインジェクション攻撃を,エージェントSentryがうまく防ぐことを実証する。
論文 参考訳(メタデータ) (2025-10-30T07:36:59Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Progent: Programmable Privilege Control for LLM Agents [46.31581986508561]
本稿では,大規模言語モデルエージェントをセキュアにするための最初の特権制御フレームワークであるProgentを紹介する。
Progentは、潜在的に悪意のあるものをブロックしながら、ユーザタスクに必要なツールコールの実行をエージェントに制限することで、ツールレベルでのセキュリティを強化する。
モジュール設計のおかげで、Progentの統合はエージェント内部を変更せず、既存のエージェントの実装に最小限の変更しか必要としません。
論文 参考訳(メタデータ) (2025-04-16T01:58:40Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。