論文の概要: RESTestBench: A Benchmark for Evaluating the Effectiveness of LLM-Generated REST API Test Cases from NL Requirements
- arxiv url: http://arxiv.org/abs/2604.25862v1
- Date: Tue, 28 Apr 2026 16:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.967906
- Title: RESTestBench: A Benchmark for Evaluating the Effectiveness of LLM-Generated REST API Test Cases from NL Requirements
- Title(参考訳): RESTestBench: LLM生成REST APIテストケースの有効性をNL要求から評価するためのベンチマーク
- Authors: Leon Kogler, Stefan Hangler, Maximilian Ehrhart, Benedikt Dornauer, Roland Wuersching, Peter Schrammel,
- Abstract要約: RESTestBenchは、手動で検証されたNL要求と組み合わせた3つのRESTサービスからなるベンチマークである。
我々は,複数の最先端LCMに対して, (i)非リファインメントベース生成と (ii) 動作中のSUTとの相互作用によって誘導されるリファインメントベース生成の2つのアプローチを評価する。
- 参考スコア(独自算出の注目度): 0.13681174239726607
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Existing REST API testing tools are typically evaluated using code coverage and crash-based fault metrics. However, recent LLM-based approaches increasingly generate tests from NL requirements to validate functional behaviour, making traditional metrics weak proxies for whether generated tests validate intended behaviour. To address this gap, we present RESTestBench, a benchmark comprising three REST services paired with manually verified NL requirements in both precise and vague variants, enabling controlled and reproducible evaluation of requirement-based test generation. RESTestBench further introduces a requirements-based mutation testing metric that measures the fault-detection effectiveness of a generated test case with respect to a specific requirement, extending the property-based approach of Bartocci et al. . Using RESTestBench, we evaluate two approaches across multiple state-of-the-art LLMs: (i) non-refinement-based generation, and (ii) refinement-based generation guided by interaction with the running SUT. In the refinement experiments, RESTestBench assesses how exposure to the actual implementation, valid or mutated, affects test effectiveness. Our results show that test effectiveness drops considerably when the generator interacts with faulty or mutated code, especially for vague requirements, sometimes negating the benefit of refinement and indicating that incorporating actual SUT behaviour is unnecessary when requirement detail is high.
- Abstract(参考訳): 既存のREST APIテストツールは通常、コードカバレッジとクラッシュベースの障害メトリクスを使用して評価される。
しかし、最近のLLMベースのアプローチは、機能的振る舞いを検証するためにNL要求からテストを生成することが増えており、生成されたテストが意図した振る舞いを検証するかどうかの従来の指標が弱い。
このギャップに対処するために、RESTestBenchという、3つのRESTサービスと手動で検証されたNL要件を正確に、曖昧に組み合わせて、要求ベースのテスト生成の制御および再現可能な評価を可能にするベンチマークを紹介します。
RESTestBenchはさらに、特定の要件に関して生成されたテストケースの障害検出の有効性を測定し、Bartocciなどプロパティベースのアプローチを拡張した、要件ベースの突然変異テストメトリクスも導入している。
RESTestBenchを使用して、複数の最先端LLMにまたがる2つのアプローチを評価します。
(i)非リファインメントに基づく世代、及び
(II)動作中のSUTとの相互作用によって誘導されるリファインメントベースの生成。
改善実験では、RESTestBenchが実際の実装への露出がテストの有効性にどのように影響するかを評価する。
これらの結果から,特に不明瞭な要求に対して,生成元が不良コードや変異コードと相互作用する場合には,テストの有効性が著しく低下することが明らかとなった。
関連論文リスト
- LLMCFG-TGen: Using LLM-Generated Control Flow Graphs to Automatically Create Test Cases from Use Cases [11.173694789846435]
適切なテストケース生成は、ソフトウェアテストにおいて重要である。
ユースケース記述は、機能的振る舞いと相互作用フローを構造化形式でキャプチャする一般的な方法である。
NLのユースケース記述からテストケースを自動的に生成する手法を提案する。
論文 参考訳(メタデータ) (2025-12-06T11:19:37Z) - Use Property-Based Testing to Bridge LLM Code Generation and Validation [38.25155484701058]
大きな言語モデル(LLM)はコード生成において優れていますが、その出力が機能的に正しいことを保証することは、永続的な課題です。
本稿では,Property-Generated Solverを紹介した。Property-Based Testing (PBT)を活用して,高レベルのプログラム特性を検証する新しいフレームワークである。
プロパティ生成ソルバーには、コード生成と反復リファインメント専用のジェネレータと、PBTライフサイクルを管理するテスタという、2つの共同LLMベースのエージェントが使用されている。
論文 参考訳(メタデータ) (2025-06-23T06:01:12Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。
本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。
VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-11-13T00:07:32Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文 参考訳(メタデータ) (2022-05-18T23:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。