論文の概要: SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments
- arxiv url: http://arxiv.org/abs/2603.10268v1
- Date: Tue, 10 Mar 2026 22:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.716054
- Title: SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments
- Title(参考訳): SpecOps: 現実世界のGUI環境でAIエージェントをテストする完全に自動化されたフレームワーク
- Authors: Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu Zhang,
- Abstract要約: SpecOpsはGUIベースのAIエージェントを現実の環境で評価するために設計された、新しい完全に自動化されたテストフレームワークである。
エンドツーエンドのタスクコヒーレンス、堅牢なエラー処理、さまざまなエージェントプラットフォームへの適応性など、重要な課題に対処する。
F1スコア0.89の現実世界のエージェントの164の真のバグを識別する。
- 参考スコア(独自算出の注目度): 1.6149725696651924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous AI agents powered by large language models (LLMs) are increasingly deployed in real-world applications, where reliable and robust behavior is critical. However, existing agent evaluation frameworks either rely heavily on manual efforts, operate within simulated environments, or lack focus on testing complex, multimodal, real-world agents. We introduce SpecOps, a novel, fully automated testing framework designed to evaluate GUI-based AI agents in real-world environments. SpecOps decomposes the testing process into four specialized phases - test case generation, environment setup, test execution, and validation - each handled by a distinct LLM-based specialist agent. This structured architecture addresses key challenges including end-to-end task coherence, robust error handling, and adaptability across diverse agent platforms including CLI tools, web apps, and browser extensions. In comprehensive evaluations across five diverse real-world agents, SpecOps outperforms baselines including general-purpose agentic systems such as AutoGPT and LLM-crafted automation scripts in planning accuracy, execution success, and bug detection effectiveness. SpecOps identifies 164 true bugs in the real-world agents with an F1 score of 0.89. With a cost of under 0.73 USD and a runtime of under eight minutes per test, it demonstrates its practical viability and superiority in automated, real-world agent testing.
- Abstract(参考訳): 大規模言語モデル(LLM)を活用した自律型AIエージェントは、信頼性と堅牢な振る舞いが不可欠である現実世界のアプリケーションにますます多くデプロイされている。
しかし、既存のエージェント評価フレームワークは手作業に大きく依存するか、シミュレーション環境で運用するか、複雑なマルチモーダルな実世界のエージェントのテストに重点を置いていない。
実環境においてGUIベースのAIエージェントを評価するために設計された,新しい完全自動テストフレームワークであるSpecOpsを紹介する。
SpecOpsはテストプロセスを4つの特別なフェーズ – テストケース生成、環境設定、テスト実行、バリデーション – に分解する。
この構造化アーキテクチャは、エンドツーエンドのタスクコヒーレンス、堅牢なエラー処理、CLIツールやWebアプリ、ブラウザエクステンションなど、さまざまなエージェントプラットフォームへの適応性など、重要な課題に対処する。
現実世界の5つのエージェントの総合的な評価において、SpecOpsは、AutoGPTやLLMによる自動化スクリプトなどの汎用エージェントシステムを含むベースラインを、計画精度、実行成功、バグ検出の有効性で上回っている。
SpecOpsはF1スコア0.89の現実世界のエージェントの164の真のバグを特定している。
0.73 USD未満のコストと1回のテストで8分未満のランタイムで、自動化された実世界のエージェントテストにおける実用性と優位性を実証している。
関連論文リスト
- Automated structural testing of LLM-based agents: methods, framework, and case studies [0.05254956925594667]
LLMベースのエージェントは、様々な領域で急速に採用されている。
現在のテストアプローチは、ユーザの視点からの受け入れレベルの評価に重点を置いている。
LLMをベースとしたエージェントの構造試験を可能にする手法を提案する。
論文 参考訳(メタデータ) (2026-01-25T11:52:30Z) - LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries [38.56775962026289]
提案するLiveMCP-101は,リアルタイムクエリを慎重にキュレートした101のベンチマークである。
実験により、フロンティアのLLMでさえ60%未満の成功率を達成することが示された。
LiveMCP-101は現実世界のエージェント能力を評価するための厳格な標準を設定している。
論文 参考訳(メタデータ) (2025-08-21T17:55:54Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。