論文の概要: Practical Limits of Autonomous Test Repair: A Multi-Agent Case Study with LLM-Driven Discovery and Self-Correction
- arxiv url: http://arxiv.org/abs/2605.01471v1
- Date: Sat, 02 May 2026 14:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.790366
- Title: Practical Limits of Autonomous Test Repair: A Multi-Agent Case Study with LLM-Driven Discovery and Self-Correction
- Title(参考訳): 自律的テスト修復の実践的限界: LLM駆動の発見と自己補正によるマルチエージェントケーススタディ
- Authors: Hyukjoo Lee,
- Abstract要約: 本稿では,実運用型エンタープライズUIテストプロトタイプの匿名実行データを用いて,マルチエージェント自律テストシステムの産業ケーススタディを提案する。
システムは、人間指向のテストからハイオートノミー機能発見とテスト実行へと進化する。
我々の研究結果によると、制限のない自律は不安定でしばしば誤解を招く結果をもたらすが、制約された自律はそのようなシステムを運用上実行可能なものにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maintaining reliable UI test suites in large-scale enterprise applications is a persistent and costly challenge. We present an industrial case study of a multi-agent autonomous testing system evaluated using anonymized execution data from a production-like enterprise UI testing prototype. The application features several hundred dynamic UI elements per screen. Built on a large language model with LangGraph orchestration, Playwright execution, and a RAG knowledge base, the system evolves from human-directed testing toward High-autonomy feature discovery and test execution: given no explicit test targets, it discovers over 100 testable features across 10 UI screens, dynamically expands coverage by an additional 15--30 features through runtime DOM analysis, and iteratively repairs failing tests without human intervention. We analyzed 300 consecutive autonomous execution reports encompassing 636 individual test-case executions across 10 distinct scenario families. The system achieved a 70% repair convergence rate at the scenario-family level, with a mean of 3.4 repair iterations to convergence. However, only 10% of scenario families succeeded on first attempt, 38% of reports failed to produce any executable test artifact, and we documented concrete instances of assertion weakening and test-case deletion used as workaround mechanisms to achieve superficial convergence. Our findings show that unrestricted autonomy leads to unstable and often misleading outcomes, while constrained autonomy transforms such systems into operationally viable workflows. Rather than advocating full autonomy, our findings suggest that reliable autonomous testing in enterprise-scale settings requires explicit constraints, validation boundaries, and human oversight to preserve semantic correctness and operational trustworthiness.
- Abstract(参考訳): 大規模エンタープライズアプリケーションで信頼性の高いUIテストスイートを維持することは、永続的でコストのかかる課題である。
本稿では,実運用型エンタープライズUIテストプロトタイプの匿名実行データを用いて,マルチエージェント自律テストシステムの産業ケーススタディを提案する。
アプリケーションは画面ごとに数百の動的なUI要素を特徴とする。
LangGraphオーケストレーション、Playwright実行、RAGナレッジベースを備えた大規模な言語モデル上に構築されたこのシステムは、人間の指示によるテストから、高自律性機能の検出とテスト実行へと進化する。
10のシナリオファミリーで636件の個別テストケース実行を含む300件の自律実行レポートを分析した。
このシステムはシナリオファミリーレベルで70%の修理収束率を達成し、平均3.4回の修理を繰り返して収束させた。
しかし, シナリオファミリの10%が最初の試みに成功し, 報告の38%が実行可能なテストアーティファクトの生成に失敗し, ワークアラウンド機構としてのアサーション弱化とテストケース削除の具体例を文書化した。
我々の研究結果によると、制限のない自律は不安定でしばしば誤解を招く結果をもたらすが、制約された自律はそのようなシステムを運用可能なワークフローに変換する。
企業規模の環境での信頼性の高い自律テストは、完全な自律性を主張するのではなく、明示的な制約、検証境界、人間による監督が意味的正当性と運用上の信頼性を維持する必要があることを示唆している。
関連論文リスト
- Towards Automated Crowdsourced Testing via Personified-LLM [19.99410914727493]
我々は、クラウドソースGUIテストを自動化するために設計された、新しいパーソナライズされたLLMベースのフレームワークであるPersonaTesterを紹介する。
我々は,PersonaTesterが実際のクラウドワーカーの行動パターンを忠実に再現し,強い個人内一貫性と明確な個人間変動を示すことを示した。
論文 参考訳(メタデータ) (2026-03-25T10:29:04Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Scaling Mobile Chaos Testing with AI-Driven Test Execution [2.7786234871633995]
大規模分散システムのモバイルアプリケーションは、バックエンドのサービス障害の影響を受けやすい。
従来のカオスエンジニアリングアプローチでは,フローやロケーション,障害シナリオの爆発によるモバイルテストのスケールアップは不可能だ。
LLMベースのモバイルテストプラットフォームであるDragonCrawlとサービスレベルの障害注入システムであるuHavocを統合した,自動モバイルカオステストシステムを提案する。
論文 参考訳(メタデータ) (2026-02-05T22:01:50Z) - Cast: Automated Resilience Testing for Production Cloud Service Systems [38.54479293660192]
Castはマイクロサービスのレジリエンスを本番環境でテストするための、エンドツーエンドの自動化フレームワークです。
アプリケーションレベルの障害の包括的なライブラリに対して、プロダクショントラフィックを再生することで、高いテスト忠実性を達成する。
Castは、レジリエンスの脆弱性に積極的に対処するために、多くのサービスチームによって採用されている。
論文 参考訳(メタデータ) (2026-02-01T02:29:25Z) - The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models [11.958545255487735]
NLPモデルの自動化および多次元テストフレームワークであるAutoTestForgeを紹介する。
AutoTestForge内では、テストテンプレートを自動的に生成してインスタンス化するLarge Language Models(LLM)の利用により、手作業による関与が大幅に削減される。
また、このフレームワークは、分類学、公正性、堅牢性の3つの側面にまたがってテストスイートを拡張し、NLPモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2025-03-07T02:44:17Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。