論文の概要: Assessing REST API Test Generation Strategies with Log Coverage
- arxiv url: http://arxiv.org/abs/2604.07073v1
- Date: Wed, 08 Apr 2026 13:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.553535
- Title: Assessing REST API Test Generation Strategies with Log Coverage
- Title(参考訳): ログカバレッジによるREST APIテスト生成戦略の評価
- Authors: Nana Reinikainen, Mika Mäntylä, Yuqing Wang,
- Abstract要約: 我々は、Light-OAuth2認証マイクロサービスシステム上で、3つのREST APIテスト生成戦略、進化型コンピューティング(EvoMaster v5.0.2)、LSM(Claude Opus 4.6およびGPT-5.2-Codex)、人手によるローカスト負荷テストを経験的に評価した。
平均して、Claude Opus 4.6テストでは、人間によるテストよりも28.4%、EvoMasterとGPT-5.2-Codexは26.1%、38.6%減少している。
- 参考スコア(独自算出の注目度): 18.116037423912257
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Assessing the effectiveness of REST API tests in black-box settings can be challenging due to the lack of access to source code coverage metrics and polyglot tech stack. We propose three metrics for capturing average, minimum, and maximum log coverage to handle the diverse test generation results and runtime behaviors over multiple runs. Using log coverage, we empirically evaluate three REST API test generation strategies, Evolutionary computing (EvoMaster v5.0.2), LLMs (Claude Opus 4.6 and GPT-5.2-Codex), and human-written Locust load tests, on Light-OAuth2 authorization microservice system. On average, Claude Opus 4.6 tests uncover 28.4% more unique log templates than human-written tests, whereas EvoMaster and GPT-5.2-Codex find 26.1% and 38.6% fewer, respectively. Next, we analyze combined log coverage to assess complementarity between strategies. Combining human-written tests with Claude Opus 4.6 tests increases total observed log coverage by 78.4% and 38.9% in human-written and Claude tests respectively. When combining Locust tests with EvoMaster the same increases are 30.7% and 76.9% and when using GPT-5.2-Codex 26.1% and 105.6%. This means that the generation strategies exercise largely distinct runtime behaviors. Our future work includes extending our study to multiple systems.
- Abstract(参考訳): ソースコードカバレッジメトリクスや多言語技術スタックにアクセスできないため、ブラックボックス設定でのREST APIテストの有効性を評価することは難しい。
テスト生成結果の多様性と実行時の動作を複数の実行で処理するために,平均,最小,最大ログカバレッジをキャプチャする3つの指標を提案する。
ログカバレッジを用いて、Light-OAuth2認証マイクロサービスシステム上で、3つのREST APIテスト生成戦略、進化型コンピューティング(EvoMaster v5.0.2)、LSM(Claude Opus 4.6およびGPT-5.2-Codex)、人手によるローカスト負荷テストを経験的に評価する。
一方、EvoMasterとGPT-5.2-Codexはそれぞれ26.1%、38.6%減少している。
次に、統合ログのカバレッジを分析し、戦略間の相補性を評価する。
人書きテストとClaude Opus 4.6テストを組み合わせることで、人書きテストとClaudeテストでそれぞれ78.4%と38.9%の総ログカバレッジが向上する。
LocustテストとEvoMasterを組み合わせると、同様の増加は30.7%と76.9%、GPT-5.2-Codex 26.1%と105.6%である。
これは、生成戦略が実行時の動作をかなり異なるものにすることを意味します。
今後の研究には、研究を複数のシステムに拡張することが含まれます。
関連論文リスト
- APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。
AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。
結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-01-29T07:45:41Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2024-04-12T21:35:21Z) - Domain Adaptation for Code Model-based Unit Test Case Generation [7.147408628963976]
私たちはTransformerベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(DA)の助けを借りて単体テストを生成します。
DAを用いて生成した試験は18.62%,19.88%,18.02%,突然変異スコア16.45%,16.01%,12.99%のラインカバレッジを増大させることができる。
論文 参考訳(メタデータ) (2023-08-15T20:48:50Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。