論文の概要: A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance
- arxiv url: http://arxiv.org/abs/2603.18096v1
- Date: Wed, 18 Mar 2026 10:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.762103
- Title: A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance
- Title(参考訳): エージェントAIオーケストレーションのためのトレースベースの保証フレームワーク:契約、テスト、ガバナンス
- Authors: Ciprian Paduraru, Petru-Liviu Bouruc, Alin Stefanescu,
- Abstract要約: 本稿では,Large Language Models (LLM) を用いたエージェントAIシステムの保証フレームワークを提案する。
実行は、明示的なステップとトレースコントラクトを備えたメッセージ・アクション・トレース(MAT)として実装される。
このフレームワークは、有界摂動に対する予算付き反例探索として定式化されたストレステストを含む。
- 参考スコア(独自算出の注目度): 0.22940141855172028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Agentic AI, Large Language Models (LLMs) are increasingly used in the orchestration layer to coordinate multiple agents and to interact with external services, retrieval components, and shared memory. In this setting, failures are not limited to incorrect final outputs. They also arise from long-horizon interaction, stochastic decisions, and external side effects (such as API calls, database writes, and message sends). Common failures include non-termination, role drift, propagation of unsupported claims, and attacks via untrusted context or external channels. This paper presents an assurance framework for such Agentic AI systems. Executions are instrumented as Message-Action Traces (MAT) with explicit step and trace contracts. Contracts provide machine-checkable verdicts, localize the first violating step, and support deterministic replay. The framework includes stress testing, formulated as a budgeted counterexample search over bounded perturbations. It also supports structured fault injection at service, retrieval, and memory boundaries to assess containment under realistic operational faults and degraded conditions. Finally, governance is treated as a runtime component, enforcing per-agent capability limits and action mediation (allow, rewrite, block) at the language-to-action boundary. To support comparative evaluations across stochastic seeds, models, and orchestration configurations, the paper defines trace-based metrics for task success, termination reliability, contract compliance, factuality indicators, containment rate, and governance outcome distributions. More broadly, the framework is intended as a common abstraction to support testing and evaluation of multi-agent LLM systems, and to facilitate reproducible comparison across orchestration designs and configurations.
- Abstract(参考訳): Agentic AIでは、複数のエージェントをコーディネートし、外部サービス、検索コンポーネント、共有メモリと対話するために、オーケストレーション層でLarge Language Models(LLM)がますます使用されている。
この設定では、失敗は間違った最終的な出力に制限されない。
また、長い水平相互作用、確率的決定、外部副作用(API呼び出し、データベース書き込み、メッセージ送信など)から生じる。
一般的な障害としては、非終了、ロールドリフト、サポート対象のクレームの伝搬、信頼できないコンテキストや外部チャネルによる攻撃などがある。
本稿では,エージェントAIシステムのための保証フレームワークを提案する。
実行は、明示的なステップとトレースコントラクトを備えたメッセージ・アクション・トレース(MAT)として実装される。
コントラクトは、マシンチェック可能な検証を提供し、最初の違反ステップをローカライズし、決定論的リプレイをサポートする。
このフレームワークは、有界摂動に対する予算付き反例探索として定式化されたストレステストを含む。
サービス時の構造化された障害注入、検索、メモリバウンダリをサポートし、現実的な運用上の障害や劣化条件下での封じ込めを評価する。
最後に、ガバナンスはランタイムコンポーネントとして扱われ、言語間境界におけるエージェント毎の機能制限とアクションメディエーション(オプション、リライト、ブロック)を強制する。
確率的シード,モデル,オーケストレーション構成の比較評価を支援するため,タスク成功,終了信頼性,契約遵守,事実性指標,封じ込め率,ガバナンス成果分布などのトレースベースの指標を定義した。
より広範に、このフレームワークは、マルチエージェントLLMシステムのテストと評価をサポートし、オーケストレーション設計と構成間で再現可能な比較を容易にするための共通の抽象化として意図されている。
関連論文リスト
- High-Fidelity Network Management for Federated AI-as-a-Service: Cross-Domain Orchestration [0.12234742322758417]
本稿では,Tail-Risk Envelopes(TRE)に基づく保証指向AI管理プレーンを提案する。
TREは、決定論的ガードレールとレート・レイテンシ・インペアメントモデルを組み合わせた、ドメインごとの構成可能な記述子に署名される。
テナントレベルの予約は,TRE契約下でのテール遅延の増大を防止する。
論文 参考訳(メタデータ) (2026-02-17T00:40:04Z) - AgentRx: Diagnosing AI Agent Failures from Execution Trajectories [9.61742219198197]
構造化されたAPI、インシデント管理、オープンなWeb/ファイルタスクにまたがる115の障害トラジェクトリのベンチマークをリリースする。
各トラジェクトリには、臨界障害ステップと、基底理論から派生したクロスドメイン障害分類のカテゴリが注釈付けされている。
本稿では,ドメインに依存しない自動診断フレームワークであるAgentRXについて述べる。
論文 参考訳(メタデータ) (2026-02-02T18:54:07Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - HADA: Human-AI Agent Decision Alignment Architecture [0.0]
HADAはプロトコルとフレームワークのリファレンスアーキテクチャであり、大きな言語モデル(LLM)エージェントとレガシーアルゴリズムの両方を組織的目標と値に一致させる。
技術的および非技術的アクターは、戦略的、戦術的、リアルタイムな地平線を越えて、あらゆる決定をクエリ、ステア、監査、または競合することができる。
論文 参考訳(メタデータ) (2025-06-01T14:04:52Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。