Fugu-MT 論文翻訳(概要): MASTEST: A LLM-Based Multi-Agent System For RESTful API Tests

論文の概要: MASTEST: A LLM-Based Multi-Agent System For RESTful API Tests

arxiv url: http://arxiv.org/abs/2511.18038v1
Date: Sat, 22 Nov 2025 12:33:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:24.597033
Title: MASTEST: A LLM-Based Multi-Agent System For RESTful API Tests
Title（参考訳）: MASTEST: RESTful APIテストのためのLLMベースのマルチエージェントシステム
Authors: Xiaoke Han, Hong Zhu,
Abstract要約: クラウドネイティブアプリケーションの品質保証において、APIのテストはますます重要になっている。機械学習の最近の進歩は、様々なテスト活動が妥当な精度で大規模言語モデル(LLM)によって自動的に実行されることを示した。本稿では, LLM とプログラムエージェントを組み合わせたマルチエージェントシステム MASTEST を開発した。
参考スコア（独自算出の注目度）: 2.4690347153946237
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Testing RESTful API is increasingly important in quality assurance of cloud-native applications. Recent advances in machine learning (ML) techniques have demonstrated that various testing activities can be performed automatically by large language models (LLMs) with reasonable accuracy. This paper develops a multi-agent system called MASTEST that combines LLM-based and programmed agents to form a complete tool chain that covers the whole workflow of API test starting from generating unit and system test scenarios from API specification in the OpenAPI Swagger format, to generating of Pytest test scripts, executing test scripts to interact with web services, to analysing web service response messages to determine test correctness and calculate test coverage. The system also supports the incorporation of human testers in reviewing and correcting LLM generated test artefacts to ensure the quality of testing activities. MASTEST system is evaluated on two LLMs, GPT-4o and DeepSeek V3.1 Reasoner with five public APIs. The performances of LLMs on various testing activities are measured by a wide range of metrics, including unit and system test scenario coverage and API operation coverage for the quality of generated test scenarios, data type correctness, status code coverage and script syntax correctness for the quality of LLM generated test scripts, as well as bug detection ability and usability of LLM generated test scenarios and scripts. Experiment results demonstrated that both DeepSeek and GPT-4o achieved a high overall performance. DeepSeek excels in data type correctness and status code detection, while GPT-4o performs best in API operation coverage. For both models, LLM generated test scripts maintained 100\% syntax correctness and only required minimal manual edits for semantic correctness. These findings indicate the effectiveness and feasibility of MASTEST.
Abstract（参考訳）: RESTful APIのテストは、クラウドネイティブアプリケーションの品質保証においてますます重要になっている。機械学習(ML)技術の最近の進歩は、様々なテスト活動が妥当な精度で大規模言語モデル(LLM)によって自動的に実行可能であることを実証している。本稿では,LLMベースのエージェントとプログラムエージェントを組み合わせたマルチエージェントシステムMASTESTを開発し,OpenAPI SwaggerフォーマットのAPI仕様からPytestテストスクリプトの生成,Webサービスとのインタラクションのためのテストスクリプトの実行,Webサービス応答メッセージの解析,テスト正しさの判定,テストカバレッジの算出に至るまで,APIテストの全ワークフローをカバーする完全なツールチェーンを形成する。このシステムは、LLMが生成したテスト成果物のレビューと修正において、人間のテスタの法人化をサポートし、テスト活動の質を保証する。 MASTESTシステムは、GPT-4oと5つの公開APIを持つDeepSeek V3.1 Reasonerの2つのLLMで評価されている。様々なテストアクティビティにおけるLLMのパフォーマンスは、生成したテストシナリオの品質に対する単体/システムテストシナリオのカバレッジとAPI操作のカバレッジ、データ型補正、ステータスコードカバレッジ、LLM生成されたテストスクリプトの品質に対するスクリプトシンタックスの正確性、およびLLM生成されたテストシナリオとスクリプトのバグ検出機能とユーザビリティなど、幅広いメトリクスによって測定される。実験の結果,DeepSeekとGPT-4oは総合的に高い性能を示した。 DeepSeekはデータ型の正確性とステータスコード検出に優れており、GPT-4oはAPI操作カバレッジで最高のパフォーマンスを示している。どちらのモデルも、LLMが生成したテストスクリプトは100\%の構文正当性を保ち、意味的正当性のための手作業による最小限の編集しか必要としなかった。以上の結果から, MASTESTの有効性と妥当性が示唆された。

関連論文リスト

Combining TSL and LLM to Automate REST API Testing: A Comparative Study [3.8615905456206256]
RestTSLLMは、テスト仕様言語(TSL)とLarge Language Models(LLM)を併用して、REST APIのテストケースの自動生成を行うアプローチである。提案したソリューションは,プロンプトエンジニアリング技術と自動パイプラインを統合して,OpenAPI仕様からテストを生成する能力に基づいて,さまざまなLSMを評価する。その結果、最高のパフォーマンスのLSMは、一貫して堅牢でコンテキスト的に一貫性のあるREST APIテストを生成しました。
論文参考訳（メタデータ） (2025-09-05T23:32:35Z)
Test Amplification for REST APIs via Single and Multi-Agent LLM Systems [1.6499388997661122]
既存のREST APIテストスイートを増幅するために,単一エージェントとマルチエージェントのセットアップである大規模言語モデル(LLM)システムについて検討する。本稿では, テストカバレッジ, バグ検出の有効性, 計算コストやエネルギー使用量など, 様々な側面における2つのアプローチの比較検討を行う。
論文参考訳（メタデータ） (2025-04-10T20:19:50Z)
AutoRestTest: A Tool for Automated REST API Testing Using LLMs and MARL [46.65963514391019]
AutoRestTestは、Semantic Property Dependency Graph(SPDG)とMARL(Multi-Agent Reinforcement Learning)と大規模言語モデル(LLM)を統合して、効果的なREST APIテストを可能にする新しいツールである。
論文参考訳（メタデータ） (2025-01-15T05:54:33Z)
LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文参考訳（メタデータ） (2025-01-15T05:51:20Z)
A Multi-Agent Approach for REST API Testing with Semantic Graphs and LLM-Driven Inputs [46.65963514391019]
私たちは、REST APIテストに依存性組み込みのマルチエージェントアプローチを採用する最初のブラックボックスツールであるAutoRestTestを紹介します。このアプローチでは、REST APIテストを分離可能な問題として扱い、4人のエージェントがAPI探索を最適化するために協力します。 12の現実世界のRESTサービス上でのAutoRestTestの評価は、主要な4つのブラックボックスREST APIテストツールよりも優れています。
論文参考訳（メタデータ） (2024-11-11T16:20:27Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。 10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文参考訳（メタデータ） (2024-09-05T18:02:41Z)
KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文参考訳（メタデータ） (2024-07-14T14:48:18Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。