論文の概要: Combining TSL and LLM to Automate REST API Testing: A Comparative Study
- arxiv url: http://arxiv.org/abs/2509.05540v1
- Date: Fri, 05 Sep 2025 23:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.56324
- Title: Combining TSL and LLM to Automate REST API Testing: A Comparative Study
- Title(参考訳): TSLとLLMを組み合わせてREST APIテストを自動化する - 比較検討
- Authors: Thiago Barradas, Aline Paes, Vânia de Oliveira Neves,
- Abstract要約: RestTSLLMは、テスト仕様言語(TSL)とLarge Language Models(LLM)を併用して、REST APIのテストケースの自動生成を行うアプローチである。
提案したソリューションは,プロンプトエンジニアリング技術と自動パイプラインを統合して,OpenAPI仕様からテストを生成する能力に基づいて,さまざまなLSMを評価する。
その結果、最高のパフォーマンスのLSMは、一貫して堅牢でコンテキスト的に一貫性のあるREST APIテストを生成しました。
- 参考スコア(独自算出の注目度): 3.8615905456206256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effective execution of tests for REST APIs remains a considerable challenge for development teams, driven by the inherent complexity of distributed systems, the multitude of possible scenarios, and the limited time available for test design. Exhaustive testing of all input combinations is impractical, often resulting in undetected failures, high manual effort, and limited test coverage. To address these issues, we introduce RestTSLLM, an approach that uses Test Specification Language (TSL) in conjunction with Large Language Models (LLMs) to automate the generation of test cases for REST APIs. The approach targets two core challenges: the creation of test scenarios and the definition of appropriate input data. The proposed solution integrates prompt engineering techniques with an automated pipeline to evaluate various LLMs on their ability to generate tests from OpenAPI specifications. The evaluation focused on metrics such as success rate, test coverage, and mutation score, enabling a systematic comparison of model performance. The results indicate that the best-performing LLMs - Claude 3.5 Sonnet (Anthropic), Deepseek R1 (Deepseek), Qwen 2.5 32b (Alibaba), and Sabia 3 (Maritaca) - consistently produced robust and contextually coherent REST API tests. Among them, Claude 3.5 Sonnet outperformed all other models across every metric, emerging in this study as the most suitable model for this task. These findings highlight the potential of LLMs to automate the generation of tests based on API specifications.
- Abstract(参考訳): REST APIのテストの効果的な実行は、分散システム固有の複雑さ、シナリオの多さ、テスト設計に利用可能な限られた時間によって、開発チームにとって依然として大きな課題です。
すべての入力の組み合わせの排他的テストは非現実的であり、しばしば未検出の失敗、高い手作業、限られたテストカバレッジをもたらす。
このような問題に対処するため、REST APIのテストケース生成を自動化するために、大規模な言語モデル(LLM)とともにテスト仕様言語(TSL)を使用するアプローチであるRestTSLLMを紹介します。
このアプローチは、テストシナリオの作成と適切な入力データの定義という、2つの主要な課題をターゲットにしています。
提案したソリューションは,プロンプトエンジニアリング技術と自動パイプラインを統合して,OpenAPI仕様からテストを生成する能力に基づいて,さまざまなLSMを評価する。
評価は、成功率、テストカバレッジ、突然変異スコアなどの指標に焦点を当て、モデル性能の体系的な比較を可能にする。
結果として、最高のパフォーマンスのLLM - Claude 3.5 Sonnet (Anthropic)、Deepseek R1 (Deepseek)、Qwen 2.5 32b (Alibaba)、Sabia 3 (Maritaca) - が、一貫して堅牢でコンテキスト的に一貫性のあるREST APIテストを生成したことが示唆された。
このうち、Claude 3.5 Sonnetはすべての指標で他のモデルよりも優れており、この研究でこのタスクに最も適したモデルとして浮上した。
これらの知見は、API仕様に基づいたテスト生成を自動化するLLMの可能性を強調している。
関連論文リスト
- Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。
3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。
実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文 参考訳(メタデータ) (2025-07-13T03:52:51Z) - Test Amplification for REST APIs via Single and Multi-Agent LLM Systems [1.6499388997661122]
既存のREST APIテストスイートを増幅するために,単一エージェントとマルチエージェントのセットアップである大規模言語モデル(LLM)システムについて検討する。
本稿では, テストカバレッジ, バグ検出の有効性, 計算コストやエネルギー使用量など, 様々な側面における2つのアプローチの比較検討を行う。
論文 参考訳(メタデータ) (2025-04-10T20:19:50Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。
実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文 参考訳(メタデータ) (2024-07-14T14:48:18Z) - Automating REST API Postman Test Cases Using LLM [0.0]
本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。
この方法論は、テストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。
この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。
論文 参考訳(メタデータ) (2024-04-16T15:53:41Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。