論文の概要: Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use
- arxiv url: http://arxiv.org/abs/2603.14332v1
- Date: Sun, 15 Mar 2026 11:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.753216
- Title: Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use
- Title(参考訳): 動的機能の支配:AIエージェントツール使用のための暗号化バインディングと再現性検証
- Authors: Ziling Zhou,
- Abstract要約: AIエージェントは、MPPとA2Aを介して実行時に機能を動的に取得する。
サイレントな能力エスカレーションを可能にし、EU AI Actトレーサビリティ要件に違反します。
能力バウンドエージェント証明書は、スキルマニフェストハッシュでX.509 v3を拡張する。
検証可能な相互作用台帳は、複数エージェントの法医学的再構築のためにハッシュリンクされた署名された記録を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents dynamically acquire capabilities at runtime via MCP and A2A, yet no framework detects when capabilities change post-authorization. We term this the capability-identity gap}: it enables silent capability escalation and violates EU AI Act traceability requirements. We propose three mechanisms. Capability-bound agent certificates extend X.509 v3 with a skills manifest hash; any tool change invalidates the certificate. Reproducibility commitments leverage LLM inference near-determinism for post-hoc replay verification. A verifiable interaction ledger provides hash-linked, signed records for multi-agent forensic reconstruction. We formalize nine security properties and prove they hold under a realistic adversary model. Our Rust prototype achieves 97us certificate verification (<1ns capability binding overhead, ~1,200,000 faster than BAID's zkVM), 0.62ms total governance overhead per tool call (0.1--1.2% of typical latency), and 4.7X separation from cross-provider outputs (Cohen's d > 1.0 on all four metrics), with best classification at F_1=0.876 (Jaccard, θ=0.408); single-provider deployments achieve F_1=0.990 with 11.5 times separation. We evaluate 12 attack scenarios -- silent escalation, tool trojanization, phantom delegation, evidence tampering, collusion, and runtime behavioral attacks validated against NVIDIA's Nemotron-AIQ traces -- each detected with a traceable mechanism, while the MCP+OAuth 2.1 baseline detects none. An end-to-end evaluation over a 5-to-20-agent pipeline with real LLM calls confirms that full governance (G1--G3) adds ~10.8ms per pipeline run (0.12% overhead), scales sub-linearly per agent, and detects all five in-situ attacks with zero false positives.
- Abstract(参考訳): AIエージェントは、MPPとA2Aを介して実行時に機能を動的に取得する。
それはサイレントな能力のエスカレーションを可能にし、EU AI Actトレーサビリティ要件に違反します。
本稿では3つのメカニズムを提案する。
能力バウンドエージェント証明書は、スキルマニフェストハッシュでX.509 v3を拡張し、任意のツールの変更で証明書が無効になる。
再現性へのコミットメントは、ポストホックリプレイ検証にLLM推論をほぼ決定性に活用する。
検証可能な相互作用台帳は、複数エージェントの法医学的再構築のためにハッシュリンクされた署名された記録を提供する。
9つのセキュリティ特性を形式化し、それらが現実的な敵モデルの下で保持されていることを証明します。
我々のRustプロトタイプは97us認証の検証(BAIDのzkVMより約1,200,000高速)、ツールコール毎の総ガバナンスオーバーヘッド(典型的なレイテンシの0.1--1.2%)、クロスプロファイラ出力からの4.7X分離(すべての4つのメトリクスでCohen's d > 1.0)、F_1=0.876(Jaccard, θ=0.408)での最高の分類(Jaccard, θ=0.408)、単一プロファイラデプロイメントは11.5回の分離でF_1=0.990を達成する。
NVIDIAのNemotron-AIQトレースに対して検証された12の攻撃シナリオ – サイレントエスカレーション、ツールトロジャン化、ファントムデリゲーション、エビデンス改ざん、コラシエーション、実行時の動作攻撃 – をトレース可能なメカニズムで検出し、MPP+OAuth 2.1ベースラインは検出しない。
実際のLLMコールを備えた5対20エージェントパイプラインに対するエンドツーエンド評価では、完全なガバナンス(G1-G3)がパイプライン実行毎に10.8ms(オーバーヘッド0.12%)を追加し、エージェント毎にサブ線形にスケールし、偽陽性のない5つのインサイトアタックすべてを検出する。
関連論文リスト
- AEGIS: No Tool Call Left Unchecked -- A Pre-Execution Firewall and Audit Layer for AI Agents [4.963079926145645]
AEGISはAIエージェントのための事前実行ファイアウォールと監査層である。
ツール実行パスに介在し、3段階のパイプラインを適用する。
ハイリスクコールは、人間の承認のために行われ、すべての決定は、未確認の監査証跡に記録される。
論文 参考訳(メタデータ) (2026-03-13T03:49:12Z) - Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents [0.0]
NabaOSは対話型エージェントのための軽量な検証フレームワークである。
ソースによってAI応答内のすべてのクレームを分類する。
製造されたツールの実行の94.2%、誤り回数の87.6%、虚偽の欠席債権の78.4%を検知する。
論文 参考訳(メタデータ) (2026-03-09T20:45:41Z) - LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems [0.0]
現在のプロトコルでは、モデルレベルのプロパティを第一級プリミティブとして公開していない。
5つのメカニズムを導入したAIネイティブ通信プロトコルであるLDM Delegate Protocol(LDP)を提案する。
アイデンティティを意識したルーティングは、デリゲートの特殊化によって、簡単なタスクの12倍のレイテンシを実現するが、小さなデリゲートプールの集約品質は向上しない。
論文 参考訳(メタデータ) (2026-03-09T19:13:17Z) - Zer0n: An AI-Assisted Vulnerability Discovery and Blockchain-Backed Integrity Framework [0.0]
Zer0nは、Large Language Models(LLM)の推論能力をブロックチェーン技術の不変監査パスに固定するフレームワークである。
ロジックベースの脆弱性検出のためにGemini 2.0 ProとAvalanche C-Chainを統合した。
論文 参考訳(メタデータ) (2026-01-11T18:27:52Z) - Context Lineage Assurance for Non-Human Identities in Critical Multi-Agent Systems [0.08316523707191924]
本稿では,アタッチメントのみのメルクル木構造に固定された系統検証のための暗号的基盤機構を提案する。
従来のA2Aモデルとは異なり、本手法ではエージェントと外部検証器の両方が暗号的にマルチホップ前駆体を検証できる。
並行して、A2Aエージェントカードを拡張して、明示的な識別認証プリミティブを組み込むことにより、NHI表現の正当性を確認することができる。
論文 参考訳(メタデータ) (2025-09-22T20:59:51Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。