論文の概要: SentinelAgent: Intent-Verified Delegation Chains for Securing Federal Multi-Agent AI Systems
- arxiv url: http://arxiv.org/abs/2604.02767v1
- Date: Fri, 03 Apr 2026 06:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.346819
- Title: SentinelAgent: Intent-Verified Delegation Chains for Securing Federal Multi-Agent AI Systems
- Title(参考訳): SentinelAgent: 連邦マルチエージェントAIシステムのセキュアなインテント検証デリゲート
- Authors: KrishnaSaiReddy Patil,
- Abstract要約: 本稿では、連邦政府のマルチエージェントAIシステムにおけるデリゲートチェーンの検証のための正式なフレームワークであるSentinelAgentを紹介する。
Delegation Chain Calculus (DCC) は7つの特性を定義している。6つの決定論的(権威の狭さ、ポリシーの保存、法的な再構築性、カスケードの封じ込め、スコープ-アクションの適合性、出力スキーマの適合性)と1つの確率的(インテリジェントな保存)である。
Intent-Preserving Delegation Protocol (I PDP)は、非LLM Delegation Authority Serviceを通じて実行時に7つのプロパティをすべて強制する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When Agent A delegates to Agent B, which invokes Tool C on behalf of User X, no existing framework can answer: whose authorization chain led to this action, and where did it violate policy? This paper introduces SentinelAgent, a formal framework for verifiable delegation chains in federal multi-agent AI systems. The Delegation Chain Calculus (DCC) defines seven properties - six deterministic (authority narrowing, policy preservation, forensic reconstructibility, cascade containment, scope-action conformance, output schema conformance) and one probabilistic (intent preservation) - with four meta-theorems and one proposition establishing the practical infeasibility of deterministic intent verification. The Intent-Preserving Delegation Protocol (IPDP) enforces all seven properties at runtime through a non-LLM Delegation Authority Service. A three-point verification lifecycle achieves 100% combined TPR at 0% FPR on DelegationBench v4 (516 scenarios, 10 attack categories, 13 federal domains). Under black-box adversarial conditions, the DAS blocks 30/30 attacks with 0 false positives. Deterministic properties are unbreakable under adversarial stress testing; intent verification degrades to 13% against sophisticated paraphrasing. Fine-tuning the NLI model on 190 government delegation examples improves P2 from 1.7% to 88.3% TPR (5-fold cross-validated, F1=82.1%). Properties P1, P3-P7 are mechanically verified via TLA+ model checking across 2.7 million states with zero violations. Even when intent verification is evaded, the remaining six properties constrain the adversary to permitted API calls, conformant outputs, traceable actions, bounded cascades, and compliant behavior.
- Abstract(参考訳): Agent AがAエージェントをAエージェントに委任すると、AエージェントはユーザーXに代わってツールCを呼び出すが、既存のフレームワークは答えられない。
本稿では、連邦政府のマルチエージェントAIシステムにおけるデリゲートチェーンの検証のための正式なフレームワークであるSentinelAgentを紹介する。
デリゲーション連鎖計算(Delegation Chain Calculus、DCC)は、決定論的(権威の狭さ、ポリシーの保存、法学的な再構成性、カスケードの封じ込め、スコープ-アクションの適合性、出力スキーマの適合性)と1つの確率論的(インテントの保存)という7つの性質を定義している。
Intent-Preserving Delegation Protocol (IPDP)は、非LLM Delegation Authority Serviceを通じて実行時に7つのプロパティをすべて強制する。
3点認証ライフサイクルは、DelegationBench v4(516のシナリオ、10の攻撃カテゴリ、13の連邦ドメイン)で、100%の組み合わせTPRを0% FPRで達成している。
ブラックボックスの敵条件下では、DASは偽陽性0で30/30の攻撃をブロックする。
逆ストレステストでは決定論的性質は破壊不可能であり、厳密な言い換えに対して意図的検証は13%まで低下する。
190の政府の代表団の例でNLIモデルを微調整すると、P2は1.7%から88.3%に改善される(5倍のクロスバリデーション、F1=82.1%)。
性質 P1, P3-P7 は TLA+ モデルで機械的に検証され、270万の州にまたがって、違反はゼロである。
インテント検証が回避されたとしても、残りの6つのプロパティは、許可されたAPI呼び出し、コンフォーマントアウトプット、トレーサブルアクション、バウンダリされたカスケード、準拠する動作に敵を拘束する。
関連論文リスト
- Agent Control Protocol: Admission Control for Agent Actions [0.4929694290403903]
エージェントコントロールプロトコル(エージェントコントロールプロトコル、ACP)は、B2Bの機関環境における自律エージェントの受け入れ制御ガバナンスのための正式な仕様である。
ACPは、暗号ID、能力に基づく認可、決定論的リスク評価、連鎖デリゲート、および暗号化連鎖監査を定義する。
ACPはRBACとZero Trustの上で動作し、どちらのモデルも解決しない問題に対処する。
論文 参考訳(メタデータ) (2026-03-19T12:28:28Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Quantum Proofs of Deletion for Learning with Errors [91.3755431537592]
完全同型暗号方式として, 完全同型暗号方式を初めて構築する。
我々の主要な技術要素は、量子証明器が古典的検証器に量子状態の形でのLearning with Errors分布からのサンプルが削除されたことを納得させる対話的プロトコルである。
論文 参考訳(メタデータ) (2022-03-03T10:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。