論文の概要: Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification
- arxiv url: http://arxiv.org/abs/2606.04037v2
- Date: Thu, 04 Jun 2026 15:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.292868
- Title: Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification
- Title(参考訳): 企業AIエージェントのデプロイ前保証に向けて:オントロジーによるシミュレーションとトラスト認定
- Authors: Thanh Luong Tuan, Abhijit Sanyal,
- Abstract要約: 配備後監視、人道管制、緊急レベルのガードレールは、エージェントが運用中に動作している場合に限定的な保証を提供する。
オントロジーに基づく検証フレームワークは、まず3つのコンポーネントを組み合わせる。
システムは、自動的に規制、運用、および敵対的なテストシナリオを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-deployment verification of enterprise artificial intelligence (AI) agents remains a critical gap between large language model (LLM) capability benchmarking and production deployment. Post-deployment monitoring, human-in-the-loop controls, and prompt-level guardrails offer limited assurance once an agent is operating in production. We present an ontology-grounded verification framework -- to our knowledge the first to combine three components: an Agent Operational Envelope formalizing the certification space across permissions, domain constraints, safety properties, governance rules, and autonomy levels; an ontology-to-scenario generation pipeline that derives regulatory, operational, and adversarial test scenarios automatically; and a machine-verifiable Trust Certificate with graduated deployment verdicts. A controlled pilot across four regulated industries (Fintech, Banking, Insurance, Healthcare), instantiated as five industry-by-regulatory-regime cells across the United States and Vietnam (where Vietnam's 2025 AI Law makes such verification legally mandated for financial services), generated 1,800 scenarios evaluated against 125 primary-source regulatory requirements and 25 injected faults. Ontology-grounded generation significantly outperformed the dominant persona-based baseline on regulatory coverage (48.3% versus 33.1%; corrected p_c = .0006) and attained the highest domain specificity (4.77/5.0; p = 2e-6); transparently, its advantage over plain and retrieval-augmented prompting did not survive Bonferroni correction. Cross-validation across three LLM families (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B; 5,400 total scenarios) replicated the persona-versus-ontology pattern. The framework offers a reproducible, regulation-grounded route to pre-deployment assurance for enterprise AI agents, complementing runtime governance with an auditable deployment gate.
- Abstract(参考訳): エンタープライズ人工知能(AI)エージェントの事前デプロイ検証は、大規模言語モデル(LLM)のベンチマークと運用デプロイメントの間には、依然として重要なギャップがある。
配備後監視、人道管制、緊急レベルのガードレールは、エージェントが運用中に動作している場合に限定的な保証を提供する。
オーソリティ、ドメイン制約、安全プロパティ、ガバナンスルール、自律性レベルにわたる認定スペースを形式化するエージェントオペレーションエンベロープ、自動で規制、運用、および敵対的なテストシナリオを導出するオントロジーからシナリオ生成パイプライン、段階的なデプロイメントのバリデーションを備えたマシン検証可能なトラスト証明書である。
4つの規制産業(フィンテック、バンキング、保険、ヘルスケア)で制御されたパイロットは、アメリカ合衆国とベトナム(ベトナムの2025年AI法が法的に金融サービスに義務付けられている)の5つの規制規制細胞としてインスタンス化され、125の規制要件と25のインジェクト障害に対して評価された1,800のシナリオを生成した。
オントロジー・グラウンドド・ジェネレーションは、支配的なペルソナベースベースライン(48.3%対33.1%、補正されたp_c = .0006)を著しく上回り、最高ドメイン特異性(4.77/5.0; p = 2e-6)を達成した。
3つのLSMファミリー(Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B, 5400の合計シナリオ)のクロスバリデーションはペルソナ・ヴァース・オントロジーパターンを再現した。
このフレームワークは、エンタープライズAIエージェントの事前デプロイ保証への再現可能な規制対象のルートを提供し、監査可能なデプロイメントゲートでランタイムガバナンスを補完する。
関連論文リスト
- Proof-Carrying Certificates for LLM Pipelines: A Trust-Boundary Architecture [0.0]
本稿では,大規模言語モデルを取り巻く決定論的構造化計算を検証するためのフレームワークを提案する。
リーン4の信頼境界アーキテクチャを,現代的なLLMパイプラインの汎用インターフェースに拡張しています。
論文 参考訳(メタデータ) (2026-05-13T12:01:41Z) - From Specification to Deployment: Empirical Evidence from a W3C VC + DID Trust Infrastructure for Autonomous Agents [0.0]
MolTrustは、自律エージェントのためのオープンでポータブルで暗号的に検証可能な信頼基盤である。
本稿では,W3C Verifiable Credentials 2.0 と Decentralized Identifiers v1.0 を基盤として構築された,そのようなインフラストラクチャを実運用的に実装する。
このコントリビューションは、信頼基盤規制当局と業界が収束した証拠であり、今日ではW3C標準化プリミティブを使用して実装可能である。
論文 参考訳(メタデータ) (2026-05-07T14:09:51Z) - TRUST: A Framework for Decentralized AI Service v.0.1 [47.384270414446604]
大規模推論モデル (LRM) とマルチエージェントシステム (MAS) は, 信頼性の高い検証を必要とする。
TRUST(Transparent, Robust, and Unified Services for Trustworthy AI)は,3つのイノベーションを備えた分散フレームワークである。
我々は、悪質な俳優が損失を被っている間、正直な監査人の利益を確実に確保する安全利益理論を証明する。
論文 参考訳(メタデータ) (2026-04-29T19:32:58Z) - OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - Agent Control Protocol: Admission Control for Agent Actions [0.4929694290403903]
エージェントコントロールプロトコル(エージェントコントロールプロトコル、ACP)は、B2Bの機関環境における自律エージェントの受け入れ制御ガバナンスのための正式な仕様である。
ACPは、暗号ID、能力に基づく認可、決定論的リスク評価、連鎖デリゲート、および暗号化連鎖監査を定義する。
ACPはRBACとZero Trustの上で動作し、どちらのモデルも解決しない問題に対処する。
論文 参考訳(メタデータ) (2026-03-19T12:28:28Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? [10.248746359119625]
EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
論文 参考訳(メタデータ) (2026-03-11T14:07:16Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。