論文の概要: The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance
- arxiv url: http://arxiv.org/abs/2601.02454v1
- Date: Mon, 05 Jan 2026 18:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.680691
- Title: The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance
- Title(参考訳): エージェントテストの台頭:ロバストなソフトウェア品質保証のためのマルチエージェントシステム
- Authors: Saba Naqvi, Mohammad Baqar, Nawaz Ali Mohammad,
- Abstract要約: 現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Software testing has progressed toward intelligent automation, yet current AI-based test generators still suffer from static, single-shot outputs that frequently produce invalid, redundant, or non-executable tests due to the lack of execution aware feedback. This paper introduces an agentic multi-model testing framework a closed-loop, self-correcting system in which a Test Generation Agent, an Execution and Analysis Agent, and a Review and Optimization Agent collaboratively generate, execute, analyze, and refine tests until convergence. By using sandboxed execution, detailed failure reporting, and iterative regeneration or patching of failing tests, the framework autonomously improves test quality and expands coverage. Integrated into a CI/CD-compatible pipeline, it leverages reinforcement signals from coverage metrics and execution outcomes to guide refinement. Empirical evaluations on microservice based applications show up to a 60% reduction in invalid tests, 30% coverage improvement, and significantly reduced human effort compared to single-model baselines demonstrating that multi-agent, feedback-driven loops can evolve software testing into an autonomous, continuously learning quality assurance ecosystem for self-healing, high-reliability codebases.
- Abstract(参考訳): ソフトウェアテストはインテリジェントな自動化に向かって進んでいるが、現在のAIベースのテストジェネレータは、実行を意識したフィードバックが欠如しているため、無効、冗長、あるいは実行不可能なテストを頻繁に生成する、静的で単一ショットのアウトプットに悩まされている。
本稿では, テスト生成エージェント, 実行・分析エージェント, レビュー・最適化エージェントが協調して, 収束までテストの生成, 実行, 解析, 精査を行う, クローズドループ, 自己補正システムを提案する。
サンドボックスの実行、詳細な障害報告、繰り返しのリジェネレーション、あるいはフェールテストのパッチを使用することで、フレームワークはテスト品質を自律的に改善し、カバレッジを拡大する。
CI/CD互換パイプラインに統合され、カバレッジメトリクスと実行結果からの強化信号を活用して改善をガイドする。
マイクロサービスベースのアプリケーションの経験的評価では、無効なテストが60%削減され、カバレッジが30%向上し、シングルモデルベースラインに比べて人的労力が大幅に削減された。
関連論文リスト
- Reinforcement Learning Integrated Agentic RAG for Software Test Cases Authoring [0.0]
本稿では,品質工学(QE)における業務要件文書から作成するソフトウェアテストケースの自動処理の継続的改善を実現するために,強化学習(RL)を自律エージェントと統合するフレームワークを提案する。
提案するReinforcement Infused Agentic RAG(Retrieve, Augment, Generate)フレームワークは,QEフィードバックや評価,欠陥発見結果から学習するAIエージェントを用いて,テストケース生成戦略を自動改善することで,この制限を克服する。
論文 参考訳(メタデータ) (2025-12-05T17:52:26Z) - xOffense: An AI-driven autonomous penetration testing framework with offensive knowledge-enhanced LLMs and multi agent systems [0.402058998065435]
xOffenseはAI駆動のマルチエージェント浸透テストフレームワークである。
プロセスは、労働集約的で専門家主導のマニュアル作業から、完全に自動化され、マシン実行可能なスケーリングへと、計算インフラストラクチャとシームレスに移行します。
論文 参考訳(メタデータ) (2025-09-16T12:45:45Z) - Breaking Barriers in Software Testing: The Power of AI-Driven Automation [0.0]
本稿では、自然言語処理(NLP)、強化学習(RL)、予測モデルを用いたテストケース生成と検証を自動化するAI駆動フレームワークを提案する。
ケーススタディでは、欠陥の検出、テストの労力の削減、リリースサイクルの高速化が測定可能な向上を示している。
論文 参考訳(メタデータ) (2025-08-22T01:04:50Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - The Future of Software Testing: AI-Powered Test Case Generation and Validation [0.0]
本稿では、テストケースの生成と検証を改善する上で、AIが持つ変革の可能性について考察する。
テストプロセスの効率性、正確性、スケーラビリティを高める能力に重点を置いている。
また、高品質なトレーニングデータの必要性など、テストにAIを適用する際の重要な課題にも対処している。
論文 参考訳(メタデータ) (2024-09-09T17:12:40Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。