論文の概要: MASTEST: A LLM-Based Multi-Agent System For RESTful API Tests
- arxiv url: http://arxiv.org/abs/2511.18038v1
- Date: Sat, 22 Nov 2025 12:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.597033
- Title: MASTEST: A LLM-Based Multi-Agent System For RESTful API Tests
- Title(参考訳): MASTEST: RESTful APIテストのためのLLMベースのマルチエージェントシステム
- Authors: Xiaoke Han, Hong Zhu,
- Abstract要約: クラウドネイティブアプリケーションの品質保証において、APIのテストはますます重要になっている。
機械学習の最近の進歩は、様々なテスト活動が妥当な精度で大規模言語モデル(LLM)によって自動的に実行されることを示した。
本稿では, LLM とプログラムエージェントを組み合わせたマルチエージェントシステム MASTEST を開発した。
- 参考スコア(独自算出の注目度): 2.4690347153946237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Testing RESTful API is increasingly important in quality assurance of cloud-native applications. Recent advances in machine learning (ML) techniques have demonstrated that various testing activities can be performed automatically by large language models (LLMs) with reasonable accuracy. This paper develops a multi-agent system called MASTEST that combines LLM-based and programmed agents to form a complete tool chain that covers the whole workflow of API test starting from generating unit and system test scenarios from API specification in the OpenAPI Swagger format, to generating of Pytest test scripts, executing test scripts to interact with web services, to analysing web service response messages to determine test correctness and calculate test coverage. The system also supports the incorporation of human testers in reviewing and correcting LLM generated test artefacts to ensure the quality of testing activities. MASTEST system is evaluated on two LLMs, GPT-4o and DeepSeek V3.1 Reasoner with five public APIs. The performances of LLMs on various testing activities are measured by a wide range of metrics, including unit and system test scenario coverage and API operation coverage for the quality of generated test scenarios, data type correctness, status code coverage and script syntax correctness for the quality of LLM generated test scripts, as well as bug detection ability and usability of LLM generated test scenarios and scripts. Experiment results demonstrated that both DeepSeek and GPT-4o achieved a high overall performance. DeepSeek excels in data type correctness and status code detection, while GPT-4o performs best in API operation coverage. For both models, LLM generated test scripts maintained 100\% syntax correctness and only required minimal manual edits for semantic correctness. These findings indicate the effectiveness and feasibility of MASTEST.
- Abstract(参考訳): RESTful APIのテストは、クラウドネイティブアプリケーションの品質保証においてますます重要になっている。
機械学習(ML)技術の最近の進歩は、様々なテスト活動が妥当な精度で大規模言語モデル(LLM)によって自動的に実行可能であることを実証している。
本稿では,LLMベースのエージェントとプログラムエージェントを組み合わせたマルチエージェントシステムMASTESTを開発し,OpenAPI SwaggerフォーマットのAPI仕様からPytestテストスクリプトの生成,Webサービスとのインタラクションのためのテストスクリプトの実行,Webサービス応答メッセージの解析,テスト正しさの判定,テストカバレッジの算出に至るまで,APIテストの全ワークフローをカバーする完全なツールチェーンを形成する。
このシステムは、LLMが生成したテスト成果物のレビューと修正において、人間のテスタの法人化をサポートし、テスト活動の質を保証する。
MASTESTシステムは、GPT-4oと5つの公開APIを持つDeepSeek V3.1 Reasonerの2つのLLMで評価されている。
様々なテストアクティビティにおけるLLMのパフォーマンスは、生成したテストシナリオの品質に対する単体/システムテストシナリオのカバレッジとAPI操作のカバレッジ、データ型補正、ステータスコードカバレッジ、LLM生成されたテストスクリプトの品質に対するスクリプトシンタックスの正確性、およびLLM生成されたテストシナリオとスクリプトのバグ検出機能とユーザビリティなど、幅広いメトリクスによって測定される。
実験の結果,DeepSeekとGPT-4oは総合的に高い性能を示した。
DeepSeekはデータ型の正確性とステータスコード検出に優れており、GPT-4oはAPI操作カバレッジで最高のパフォーマンスを示している。
どちらのモデルも、LLMが生成したテストスクリプトは100\%の構文正当性を保ち、意味的正当性のための手作業による最小限の編集しか必要としなかった。
以上の結果から, MASTESTの有効性と妥当性が示唆された。
関連論文リスト
- Combining TSL and LLM to Automate REST API Testing: A Comparative Study [3.8615905456206256]
RestTSLLMは、テスト仕様言語(TSL)とLarge Language Models(LLM)を併用して、REST APIのテストケースの自動生成を行うアプローチである。
提案したソリューションは,プロンプトエンジニアリング技術と自動パイプラインを統合して,OpenAPI仕様からテストを生成する能力に基づいて,さまざまなLSMを評価する。
その結果、最高のパフォーマンスのLSMは、一貫して堅牢でコンテキスト的に一貫性のあるREST APIテストを生成しました。
論文 参考訳(メタデータ) (2025-09-05T23:32:35Z) - Test Amplification for REST APIs via Single and Multi-Agent LLM Systems [1.6499388997661122]
既存のREST APIテストスイートを増幅するために,単一エージェントとマルチエージェントのセットアップである大規模言語モデル(LLM)システムについて検討する。
本稿では, テストカバレッジ, バグ検出の有効性, 計算コストやエネルギー使用量など, 様々な側面における2つのアプローチの比較検討を行う。
論文 参考訳(メタデータ) (2025-04-10T20:19:50Z) - AutoRestTest: A Tool for Automated REST API Testing Using LLMs and MARL [46.65963514391019]
AutoRestTestは、Semantic Property Dependency Graph(SPDG)とMARL(Multi-Agent Reinforcement Learning)と大規模言語モデル(LLM)を統合して、効果的なREST APIテストを可能にする新しいツールである。
論文 参考訳(メタデータ) (2025-01-15T05:54:33Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - A Multi-Agent Approach for REST API Testing with Semantic Graphs and LLM-Driven Inputs [46.65963514391019]
私たちは、REST APIテストに依存性組み込みのマルチエージェントアプローチを採用する最初のブラックボックスツールであるAutoRestTestを紹介します。
このアプローチでは、REST APIテストを分離可能な問題として扱い、4人のエージェントがAPI探索を最適化するために協力します。
12の現実世界のRESTサービス上でのAutoRestTestの評価は、主要な4つのブラックボックスREST APIテストツールよりも優れています。
論文 参考訳(メタデータ) (2024-11-11T16:20:27Z) - APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。
10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。
人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文 参考訳(メタデータ) (2024-09-05T18:02:41Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。