論文の概要: Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use
- arxiv url: http://arxiv.org/abs/2603.14332v2
- Date: Thu, 19 Mar 2026 19:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 15:23:15.640522
- Title: Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use
- Title(参考訳): 動的機能の支配:AIエージェントツール使用のための暗号化バインディングと再現性検証
- Authors: Ziling Zhou,
- Abstract要約: 既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents dynamically acquire tools, orchestrate sub-agents, and transact across organizational boundaries, yet no existing security layer verifies what an agent can do, whether it executed what it claims, or what happened in a multi-agent interaction. We trace this gap to the capability-context separation: inside a transformer, tool definitions and user context are indistinguishable tokens, but at the orchestration layer they have fundamentally different security semantics. Existing frameworks conflate the two, enabling silent capability escalation and leaving interactions without verifiable provenance. From this principle we derive three Agent Governance Requirements: capability integrity (G1), behavioral verifiability (G2), and interaction auditability (G3), defining what a governed agent ecosystem must enforce, independent of how. We prove two structural results: the Chain Verifiability Theorem (one unverifiable interior agent breaks end-to-end verification for all downstream nodes) and the Bounded Divergence Theorem (replay-based verification yields a probabilistic safety certificate, epsilon <= 1 - alpha^{1/n}). We validate with two crypto-agnostic instantiations -- basic (Ed25519, SHA-256; 97 us verify) and enhanced (BBS+ selective disclosure, Groth16 DV-SNARK; 13.8 ms) -- both satisfying nine security properties. A reproducibility study (9 models, 7 providers) reveals 5.8x variance in inference determinism, connecting model characteristics to governance architecture. End-to-end evaluation over 5-20 agent pipelines confirms <0.02% overhead and detection of all attack scenarios with zero false positives.
- Abstract(参考訳): AIエージェントは、ツールを動的に取得し、サブエージェントをオーケストレーションし、組織の境界を越えてトランザクションする。
トランスフォーマー内では、ツール定義とユーザコンテキストは区別できないトークンですが、オーケストレーション層では、基本的に異なるセキュリティセマンティクスを持っています。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
この原則から、3つのエージェントガバナンス要件を導出する: 能力の完全性(G1)、行動の妥当性(G2)、相互作用監査可能性(G3)。
チェイン検証可能性定理(検証不能な内部エージェントは、すべての下流ノードのエンドツーエンドの検証を破る)と境界分岐定理(リプレイによる検証は確率論的安全性証明、epsilon <= 1 - alpha^{1/n})の2つの構造的結果を示す。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
再現性の研究(9つのモデル、7つのプロバイダ)は、推論決定論の5.8倍のばらつきを示し、モデル特性とガバナンスアーキテクチャを結びつける。
5~20のエージェントパイプラインに対するエンドツーエンド評価では、オーバーヘッドが0.02%であることと、偽陽性がゼロであるすべての攻撃シナリオの検出が確認されている。
関連論文リスト
- AEGIS: No Tool Call Left Unchecked -- A Pre-Execution Firewall and Audit Layer for AI Agents [4.963079926145645]
AEGISはAIエージェントのための事前実行ファイアウォールと監査層である。
ツール実行パスに介在し、3段階のパイプラインを適用する。
ハイリスクコールは、人間の承認のために行われ、すべての決定は、未確認の監査証跡に記録される。
論文 参考訳(メタデータ) (2026-03-13T03:49:12Z) - Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents [0.0]
NabaOSは対話型エージェントのための軽量な検証フレームワークである。
ソースによってAI応答内のすべてのクレームを分類する。
製造されたツールの実行の94.2%、誤り回数の87.6%、虚偽の欠席債権の78.4%を検知する。
論文 参考訳(メタデータ) (2026-03-09T20:45:41Z) - LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems [0.0]
現在のプロトコルでは、モデルレベルのプロパティを第一級プリミティブとして公開していない。
5つのメカニズムを導入したAIネイティブ通信プロトコルであるLDM Delegate Protocol(LDP)を提案する。
アイデンティティを意識したルーティングは、デリゲートの特殊化によって、簡単なタスクの12倍のレイテンシを実現するが、小さなデリゲートプールの集約品質は向上しない。
論文 参考訳(メタデータ) (2026-03-09T19:13:17Z) - Zer0n: An AI-Assisted Vulnerability Discovery and Blockchain-Backed Integrity Framework [0.0]
Zer0nは、Large Language Models(LLM)の推論能力をブロックチェーン技術の不変監査パスに固定するフレームワークである。
ロジックベースの脆弱性検出のためにGemini 2.0 ProとAvalanche C-Chainを統合した。
論文 参考訳(メタデータ) (2026-01-11T18:27:52Z) - Context Lineage Assurance for Non-Human Identities in Critical Multi-Agent Systems [0.08316523707191924]
本稿では,アタッチメントのみのメルクル木構造に固定された系統検証のための暗号的基盤機構を提案する。
従来のA2Aモデルとは異なり、本手法ではエージェントと外部検証器の両方が暗号的にマルチホップ前駆体を検証できる。
並行して、A2Aエージェントカードを拡張して、明示的な識別認証プリミティブを組み込むことにより、NHI表現の正当性を確認することができる。
論文 参考訳(メタデータ) (2025-09-22T20:59:51Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。