論文の概要: Beyond Static Sandboxing: Learned Capability Governance for Autonomous AI Agents
- arxiv url: http://arxiv.org/abs/2604.11839v1
- Date: Sun, 12 Apr 2026 13:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.018259
- Title: Beyond Static Sandboxing: Learned Capability Governance for Autonomous AI Agents
- Title(参考訳): 静的サンドボックスを超えて - 自律型AIエージェントの能力管理を学ぶ
- Authors: Bronislav Sidik, Lior Rokach,
- Abstract要約: Aethelgardは、学習ポリシーを通じて、AIエージェントの最小特権を強制する。
Aethelgard氏は、タスクタイプ毎に設定された最小限の実行可能なスキルを学びます。
- 参考スコア(独自算出の注目度): 6.8552591401084015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous AI agents built on open-source runtimes such as OpenClaw expose every available tool to every session by default, regardless of the task. A summarization task receives the same shell execution, subagent spawning, and credential access capabilities as a code deployment task, a 15x overprovision ratio that we call the capability overprovisioning problem. Existing defenses, including the NemoClaw container sandbox and the Cisco DefenseClaw skill scanner, address containment and threat detection but do not learn the minimum viable capability set for each task type. We present Aethelgard, a four layer adaptive governance framework that enforces least privilege for AI agents through a learned policy. Layer 1, the Capability Governor, dynamically scopes which tools the agent is aware of in each session. Layer 3, the Safety Router, intercepts tool calls before execution using a hybrid rule based and fine tuned classifier. Layer 2, the RL Learning Policy, trains a PPO policy on the accumulated audit log to learn the minimum viable skill set for each task type.
- Abstract(参考訳): OpenClawのようなオープンソースのランタイム上に構築された自律AIエージェントは、タスクに関係なく、すべての利用可能なツールをデフォルトですべてのセッションに公開する。
要約タスクは、コードデプロイタスクと同じシェル実行、サブエージェント生成、クレデンシャルアクセス機能を受け取ります。
NemoClawコンテナサンドボックスやCisco DefenseClawスキルスキャナといった既存のディフェンスは、封じ込めと脅威検出に対処するが、タスクタイプ毎に設定された最小限の能力は学習しない。
Aethelgardは、学習ポリシーを通じてAIエージェントの最小特権を強制する4層適応型ガバナンスフレームワークである。
レイヤ1 機能管理者、各セッションでエージェントが認識しているツールを動的にスコープする。
レイヤ3 セーフティルータは、ハイブリッドルールと微調整された分類器を使用して、実行前にツールコールをインターセプトする。
レイヤ2RL学習ポリシーは、蓄積された監査ログにPPOポリシーをトレーニングし、タスクタイプ毎に設定された最小限の実行可能なスキルを学習する。
関連論文リスト
- A Systematic Taxonomy of Security Vulnerabilities in the OpenClaw AI Agent Framework [9.723337441030283]
脆弱性は、(1)アーキテクチャレイヤ(実行ポリシー、ゲートウェイ、チャネル、サンドボックス、ブラウザ、プラグイン、エージェント/プロンプト)を反映するシステム軸、(2)攻撃軸、(アイデンティティスプーフィング、ポリシーバイパス、クロスレイヤー構成、即時注入、サプライチェーンエスカレーション)敵のテクニックを反映する。
我々は、アーキテクチャ層と信頼侵害タイプによって組織されたオープンソースのAIエージェントランタイムOpenClawに対して、190の勧告を提出した系統分類を提示する。
論文 参考訳(メタデータ) (2026-03-29T04:51:27Z) - AEGIS: No Tool Call Left Unchecked -- A Pre-Execution Firewall and Audit Layer for AI Agents [4.963079926145645]
AEGISはAIエージェントのための事前実行ファイアウォールと監査層である。
ツール実行パスに介在し、3段階のパイプラインを適用する。
ハイリスクコールは、人間の承認のために行われ、すべての決定は、未確認の監査証跡に記録される。
論文 参考訳(メタデータ) (2026-03-13T03:49:12Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - AgentCgroup: Understanding and Controlling OS Resources of AI Agents [2.8139711959925244]
AIエージェントは、サンドボックスコンテナ内でさまざまなツールコールを実行するマルチテナントクラウド環境にますますデプロイされている。
サンドボックス型AI符号化エージェントにおけるOSレベルの資源動態の系統的特徴について述べる。
予備評価は, マルチテナント分離の改善と資源廃棄物の削減を実証する。
論文 参考訳(メタデータ) (2026-02-10T02:37:42Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。
4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。
GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文 参考訳(メタデータ) (2024-08-15T17:23:10Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。