論文の概要: Before the Tool Call: Deterministic Pre-Action Authorization for Autonomous AI Agents
- arxiv url: http://arxiv.org/abs/2603.20953v1
- Date: Sat, 21 Mar 2026 21:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.165735
- Title: Before the Tool Call: Deterministic Pre-Action Authorization for Autonomous AI Agents
- Title(参考訳): ツールコール前:自律型AIエージェントのための決定論的プレアクション認証
- Authors: Uchi Uchibeke,
- Abstract要約: Open Agent Passport (OAP)は、実行前にツール呼び出しを同期的にインターセプトするオープン仕様とリファレンス実装である。
OAPは、53ms(N=1,000)の中央値で認可決定を強制する
セキュリティ制約を強制するのと同じインフラストラクチャでは,品質ゲートや運用契約,コンプライアンスコントロールも実施されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents today have passwords but no permission slips. They execute tool calls (fund transfers, database queries, shell commands, sub-agent delegation) with no standard mechanism to enforce authorization before the action executes. Current safety architectures rely on model alignment (probabilistic, training-time) and post-hoc evaluation (retrospective, batch). Neither provides deterministic, policy-based enforcement at the individual tool call level. We characterize this gap as the pre-action authorization problem and present the Open Agent Passport (OAP), an open specification and reference implementation that intercepts tool calls synchronously before execution, evaluates them against a declarative policy, and produces a cryptographically signed audit record. OAP enforces authorization decisions in a measured median of 53 ms (N=1,000). In a live adversarial testbed (4,437 authorization decisions across 1,151 sessions, $5,000 bounty), social engineering succeeded against the model 74.6% of the time under a permissive policy; under a restrictive OAP policy, a comparable population of attackers achieved a 0% success rate across 879 attempts. We distinguish pre-action authorization from sandboxed execution (contains blast radius but does not prevent unauthorized actions) and model-based screening (probabilistic), and show they are complementary. The same infrastructure that enforces security constraints (spending limits, capability scoping) also enforces quality gates, operational contracts, and compliance controls. The specification is released under Apache 2.0 (DOI: 10.5281/zenodo.18901596).
- Abstract(参考訳): AIエージェントには現在パスワードがあるが、許可のスリップはない。
ツールコール(ファンド転送、データベースクエリ、シェルコマンド、サブエージェントデリゲート)を実行するが、アクションの実行前に権限を強制する標準的なメカニズムはない。
現在の安全アーキテクチャは、モデルアライメント(確率的、トレーニング時間)とポストホック評価(ふりかえり、バッチ)に依存しています。
それぞれのツールコールレベルで決定論的でポリシーベースの執行も提供しません。
我々は、このギャップを事前行動承認問題として特徴付け、オープン仕様および参照実装であるOpen Agent Passport(OAP)を提示する。
OAPは、53ms(N=1,000)の中央値で承認決定を強制する。
1,151件のセッションで4,437件の承認決定、5000ドルの報奨金)で、社会工学は74.6%の期間を寛容な政策の下で達成した。
我々は,サンドボックス化実行(ブラスト半径を含むが,不正行為を防止しない)とモデルベーススクリーニング(確率的)とを区別し,それらが相補的であることを示す。
セキュリティ制約(停止制限、機能スコープ)を強制するのと同じインフラストラクチャでは、品質ゲート、運用契約、コンプライアンスコントロールも実施されている。
この仕様はApache 2.0(DOI: 10.5281/zenodo.18901596)の下でリリースされている。
関連論文リスト
- Agent Control Protocol: Admission Control for Agent Actions [0.4929694290403903]
Agent Control Protocol (ACP) は、B2Bの機関環境における自律エージェントのガバナンスのための正式な技術仕様である。
ACPは、RBACとZero Trustを置き換えることなく、追加レイヤとして機能する。
論文 参考訳(メタデータ) (2026-03-19T12:28:28Z) - Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents [0.0]
Agent Behavioral Contracts (ABC)は、自律型AIエージェントにDesign-by-Contractの原則をもたらす正式なフレームワークである。
ABCは、プリコンディション、不変性、ガバナンスポリシー、およびリカバリメカニズムをランタイム強化可能なコンポーネントとして定義している。
実行時実行ライブラリであるAgentAssertにABCを実装し、AgentContract-Benchで評価する。
論文 参考訳(メタデータ) (2026-02-25T18:42:56Z) - OpenPort Protocol: A Security Governance Specification for AI Agent Tool Access [11.289770127178882]
本稿では,セキュアなサーバサイドゲートウェイを通じてアプリケーションツールを公開するためのガバナンスファースト仕様であるOpenPort Protocolを紹介する。
OpenPortは、認可に依存した発見、機械操作可能なテキストタグによる安定した応答エンベロープ、および統合証明書、スコープ化されたパーミッション、ABACスタイルのポリシー制約を組み合わせた認可モデルを定義する。
書き込み操作のために、OpenPortは、ドラフト作成とヒューマンレビューのデフォルトとなるリスクゲートライフサイクルを規定し、明示的なポリシーの下でタイムバウンド自動実行をサポートし、事前のインパクトバインディングやイデペント性を含むリスクの高い保護を強制する。
論文 参考訳(メタデータ) (2026-02-22T05:16:40Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - Faramesh: A Protocol-Agnostic Execution Control Plane for Autonomous Agent Systems [0.0]
Farameshはプロトコルに依存しない実行制御プレーンで、エージェント駆動アクションの実行時間認証を強制する。
これらのプリミティブが自律的な実行に対して、強制可能で予測可能なガバナンスを実現する方法を示します。
論文 参考訳(メタデータ) (2026-01-25T08:27:27Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Progent: Programmable Privilege Control for LLM Agents [46.31581986508561]
本稿では,大規模言語モデルエージェントをセキュアにするための最初の特権制御フレームワークであるProgentを紹介する。
Progentは、潜在的に悪意のあるものをブロックしながら、ユーザタスクに必要なツールコールの実行をエージェントに制限することで、ツールレベルでのセキュリティを強化する。
モジュール設計のおかげで、Progentの統合はエージェント内部を変更せず、既存のエージェントの実装に最小限の変更しか必要としません。
論文 参考訳(メタデータ) (2025-04-16T01:58:40Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。