論文の概要: Testing Agentic Workflows with Structural Coverage Criteria
- arxiv url: http://arxiv.org/abs/2605.26521v1
- Date: Tue, 26 May 2026 04:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.61283
- Title: Testing Agentic Workflows with Structural Coverage Criteria
- Title(参考訳): 構造的カバレッジ基準によるエージェントワークフローのテスト
- Authors: Nafiseh Kahani, Mojtaba Bagherzadeh,
- Abstract要約: マルチエージェントワークフロー仕様に対する構造的テスト手法を提案する。
このアプローチは、それぞれのワークフローを型付きコーディネーショングラフとして表現する。
到達可能なエージェント、ツールエッジ、制限されたツールエッジ、デリゲートエッジに対するカバレッジ義務を導出する。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems increasingly expose explicit workflow structure: agents, tools, tool-access rules, restrictions, and delegation paths. Existing evaluations rely largely on end-to-end task success, benchmark scores, final-response quality, or prompt-level checks, which provide limited evidence that this declared coordination structure has actually been exercised. This makes it difficult to assess test-suite adequacy or detect structural regressions in tool access, restrictions, and inter-agent delegation. We address this gap with a structural testing approach for multi-agent workflow specifications. The approach represents each workflow as a typed coordination graph, derives coverage obligations over reachable agents, allowed tool edges, restricted tool edges, and delegation edges, and uses coverage-driven generation with DSPy-based scenario realization to produce executable tests. The graph fixes what must be covered; DSPy realizes those obligations as natural-language scenarios whose witnesses are checked at runtime. We implement the approach for OpenAI Agents SDK-style workflows and evaluate it on ten SDK-derived benchmarks comprising 49 reachable agents, 47 tools, and 403 structural obligations. Generated scenarios witness 54/75 allowed-tool obligations and 36/48 delegation obligations within a bounded refinement budget. The adversarial restricted-tool criterion elicits 23/248 restricted-call violations, separating workflows whose restrictions hold under probing from workflows with concrete misrouting failures. These results show that structural coverage provides a useful adequacy layer for multi-agent workflow testing: it does not replace semantic or end-to-end evaluation, but reveals whether declared agents, tool-access rules, restrictions, and delegation paths have been exercised.
- Abstract(参考訳): マルチエージェントシステムは、エージェント、ツール、ツールアクセスルール、制限、デリゲートパスといった明示的なワークフロー構造をますます公開します。
既存の評価は、主にエンドツーエンドのタスク成功、ベンチマークスコア、最終応答品質、即時チェックに依存しており、この宣言された調整構造が実際に実行されたという限られた証拠を提供する。
これにより、ツールアクセス、制限、エージェント間デリゲートにおけるテスト適合性の評価や構造的回帰の検出が困難になる。
このギャップをマルチエージェントワークフロー仕様のための構造的テストアプローチで解決する。
このアプローチは、それぞれのワークフローを、タイプ付きコーディネーショングラフとして表現し、到達可能なエージェントよりもカバレッジ義務を導出し、ツールエッジ、制限されたツールエッジ、デリゲートエッジを許容し、DSPyベースのシナリオ実現によるカバレッジ駆動生成を使用して実行可能なテストを生成する。
DSPyはこれらの義務を、実行時に目撃者がチェックされる自然言語シナリオとして認識している。
我々は、OpenAI Agents SDKスタイルのワークフローのアプローチを実装し、49のリーチ可能なエージェント、47のツール、403の構造上の義務を含む10のSDK由来のベンチマークで評価する。
生成されたシナリオでは、制限付き改良予算内で54/75の許可付きツール義務と36/48の委任義務を目撃した。
反対の制限-ツール基準では23/248の制限-コール違反が引き起こされ、具体的なミスルー障害のあるワークフローから制限が守られるワークフローを分離する。
これらの結果は、構造的カバレッジがマルチエージェントワークフローテストに有用な妥当性レイヤを提供することを示している。セマンティックやエンドツーエンドの評価を置き換えるのではなく、宣言されたエージェント、ツールアクセスルール、制限、デリゲートパスが実行されたかどうかを明らかにする。
関連論文リスト
- Governance by Construction for Generalist Agents [7.48004748585128]
このデモでは、CUGAのポリシ・アズ・コード・レイヤであるポリシ・アズ・コード・レイヤを紹介し、ジェネラリストエージェントと組み合わせて予測可能、監査可能、コンプライアンス対応の振る舞いを提供する。
実行の重要なすべての段階において、ポリシーの介入を強制するガバナンスアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-05-20T08:13:16Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - Beyond the All-in-One Agent: Benchmarking Role-Specialized Multi-Agent Collaboration in Enterprise Workflows [24.72893952080658]
大規模言語モデル(LLM)エージェントは、企業環境での運用がますます期待されている。
既存のベンチマークでは、幅広いツールアクセスを持つ単一のエージェントが評価されている。
企業におけるマルチエージェントコラボレーションを評価するベンチマークである textscEntCollabBench を紹介する。
論文 参考訳(メタデータ) (2026-05-09T07:47:07Z) - SARC: A Governance-by-Architecture Framework for Agentic AI Systems [0.0]
エージェントAIシステムは、ツール、サブエージェント、外部サービスを通じてますます機能するが、ガバナンスコントロールは、プロンプト、ダッシュボード、ポストホックドキュメンテーションにアタッチされることが多い。
SARCは、制約をステート、アクションスペース、報酬と共に第一級の仕様オブジェクトとして扱うツール使用エージェントのためのランタイムガバナンスアーキテクチャである。
SARCは厳密な述語の下でゼロのハードコントラスト違反を実行し、その宣言されたPAAのスロットリング応答は、ポリシー・アズ・コードのみと比較して、ソフトウインドウのオーバーアーを89.5%削減する。
論文 参考訳(メタデータ) (2026-05-08T13:34:36Z) - Constraint Decay: The Fragility of LLM Agents in Backend Code Generation [9.659020624935687]
大きな言語モデル(LLM)エージェントは、緩やかな仕様の下で、自律的なコード生成において強力なパフォーマンスを示す。
プロダクショングレードのソフトウェアは、アーキテクチャパターンやデータベース、オブジェクト-リレーショナルマッピングといった構造的制約に厳格に固執する必要がある。
本稿では,バックエンド生成における構造的制約を適切に扱えるかを評価する。
論文 参考訳(メタデータ) (2026-05-07T15:44:40Z) - Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows [67.92316850084575]
ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介する。
各リリースは、公開ワークフロー要求信号から構築される。
Claw-Eval-Liveは実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録する。
論文 参考訳(メタデータ) (2026-04-30T17:23:19Z) - A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance [0.22940141855172028]
本稿では,Large Language Models (LLM) を用いたエージェントAIシステムの保証フレームワークを提案する。
実行は、明示的なステップとトレースコントラクトを備えたメッセージ・アクション・トレース(MAT)として実装される。
このフレームワークは、有界摂動に対する予算付き反例探索として定式化されたストレステストを含む。
論文 参考訳(メタデータ) (2026-03-18T10:23:48Z) - CCTU: A Benchmark for Tool Use under Complex Constraints [66.87622847854337]
複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
論文 参考訳(メタデータ) (2026-03-16T14:05:13Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。