Fugu-MT 論文翻訳(概要): A Feature-Based Approach to Generating Comprehensive End-to-End Tests

論文の概要: A Feature-Based Approach to Generating Comprehensive End-to-End Tests

arxiv url: http://arxiv.org/abs/2408.01894v1
Date: Sun, 4 Aug 2024 01:16:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 18:01:12.238391
Title: A Feature-Based Approach to Generating Comprehensive End-to-End Tests
Title（参考訳）: 包括的エンドツーエンドテスト生成のための特徴ベースアプローチ
Authors: Parsa Alian, Noor Nashid, Mobina Shahbandeh, Taha Shabani, Ali Mesbah,
Abstract要約: AUTOE2Eは、セマンティックに意味のある機能駆動型E2EテストケースをWebアプリケーション向けに自動生成する新しいアプローチである。 E2EBENCHは、E2Eテストスイートの機能カバレッジを自動的に評価する新しいベンチマークである。
参考スコア（独自算出の注目度）: 5.7340627516257525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: End-to-end (E2E) testing is essential for ensuring web application quality. However, manual test creation is time-consuming and current test generation techniques produce random tests. In this paper, we present AUTOE2E, a novel approach that leverages Large Language Models (LLMs) to automate the generation of semantically meaningful feature-driven E2E test cases for web applications. AUTOE2E intelligently infers potential features within a web application and translates them into executable test scenarios. Furthermore, we address a critical gap in the research community by introducing E2EBENCH, a new benchmark for automatically assessing the feature coverage of E2E test suites. Our evaluation on E2EBENCH demonstrates that AUTOE2E achieves an average feature coverage of 79%, outperforming the best baseline by 558%, highlighting its effectiveness in generating high-quality, comprehensive test cases.
Abstract（参考訳）: エンド・ツー・エンド(E2E)テストは、Webアプリケーションの品質を保証するために不可欠である。しかし、手動のテスト生成は時間がかかり、現在のテスト生成技術はランダムなテストを生成する。本稿では,Large Language Models (LLMs) を利用したWebアプリケーションの意味論的特徴駆動型E2Eテストケースの自動生成手法であるAUTOE2Eを提案する。 AUTOE2Eは、Webアプリケーション内の潜在的な機能をインテリジェントに推論し、実行可能なテストシナリオに変換する。さらに、E2Eテストスイートの機能カバレッジを自動的に評価する新しいベンチマークであるE2EBENCHを導入することで、研究コミュニティにおける重要なギャップに対処する。 E2EBENCHの評価は,AUTOE2Eが平均79%の機能カバレッジを達成し,最高のベースラインを558%上回り,高品質で総合的なテストケースを生成する上での有効性を強調した。

関連論文リスト

E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task [40.46045741731215]
E2EDevは振る舞い駆動開発(BDD)の原則に基づいた新しいベンチマークだ。 E2EDevは、(i)ユーザ要件のきめ細かいセット、(ii)要件ごとに対応するPythonのステップ実装を備えた複数のBDDテストシナリオ、(iii)Behaveフレームワーク上に構築された完全に自動化されたテストパイプラインで構成されています。
論文参考訳（メタデータ） (2025-10-16T09:54:26Z)
GenIA-E2ETest: A Generative AI-Based Approach for End-to-End Test Automation [0.3499870393443268]
本稿では、生成AIを利用して自然言語記述からE2Eテストスクリプトを自動生成するGenIA-E2ETestを紹介する。提案手法は, 完全性, 正確性, 適応性, 堅牢性を評価した。
論文参考訳（メタデータ） (2025-10-01T15:30:24Z)
Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文参考訳（メタデータ） (2025-05-05T12:36:03Z)
Acceptance Test Generation with Large Language Models: An Industrial Case Study [0.7874708385247353]
大規模言語モデル(LLM)を利用したアシスタントは、プログラムコードや単体テストの生成にますます利用されている。本稿では,2段階のプロセスでWebアプリケーションの実行可能受け入れテストを生成するLLMについて検討する。この2段階のアプローチは、受け入れテスト駆動開発をサポートし、テスターコントロールを強化し、テスト品質を向上させる。
論文参考訳（メタデータ） (2025-04-09T19:33:38Z)
Automatic High-Level Test Case Generation using Large Language Models [1.8136446064778242]
主な課題は、テストスクリプトを書くのではなく、テスト作業とビジネス要件の整合性です。我々は、高レベルのテストケースを生成するためのトレーニング/ファインチューンモデルを構築するユースケースデータセットを構築した。当社の積極的なアプローチは要件テストのアライメントを強化し,早期テストケース生成を容易にする。
論文参考訳（メタデータ） (2025-03-23T09:14:41Z)
A Study on the Improvement of Code Generation Quality Using Large Language Models Leveraging Product Documentation [0.0]
本研究では,製品ドキュメントからE2Eテストコードを自動的に生成する手法を提案する。製品ドキュメントから生成されたテストは、高いコンパイル成功と機能カバレッジを持ち、要求仕様とユーザストーリに基づいたテストよりも優れています。
論文参考訳（メタデータ） (2025-03-22T18:42:05Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
AI-powered test automation tools: A systematic review and empirical evaluation [1.3490988186255937]
既存のAIベースのテスト自動化ツールが提供する機能について検討する。私たちは、AI機能がテストの有効性と効率にどのように役立つかを実証的に評価します。 AIベースのテストツールにおけるAI機能の制限についても検討する。
論文参考訳（メタデータ） (2024-08-31T10:10:45Z)
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文参考訳（メタデータ） (2024-08-14T23:02:16Z)
Selene: Pioneering Automated Proof in Software Verification [62.09555413263788]
実世界の産業レベルのマイクロカーネルであるseL4をベースとした,最初のプロジェクトレベルの自動証明ベンチマークであるSeleneを紹介する。 GPT-3.5-turbo や GPT-4 のような先進的な大規模言語モデル (LLM) による実験結果から, 自動証明生成領域における LLM の機能を強調した。
論文参考訳（メタデータ） (2024-01-15T13:08:38Z)
End-to-End Test Coverage Metrics in Microservice Systems: An Automated Approach [2.6245844272542027]
本稿では、マイクロサービスエンドポイントのE2Eテストスイートカバレッジの範囲を評価するためのテストカバレッジメトリクスを紹介する。次に、これらのメトリクスを計算してE2Eテストスイートの完全性に関するフィードバックを提供する自動化アプローチを提示します。
論文参考訳（メタデータ） (2023-08-18T02:30:19Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Neural Embeddings for Web Testing [49.66745368789056]
既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。ニューラルネットワークの埋め込みとしきい値のない分類器に基づく新しい抽象関数WEBEMBEDを提案する。 WEBEMBEDは,9つのWebアプリケーションに対する評価の結果,近距離検出により最先端技術よりも精度が高いことがわかった。
論文参考訳（メタデータ） (2023-06-12T19:59:36Z)
E-Valuating Classifier Two-Sample Tests [11.248868528186332]
我々のテストは、既存の作業量分割確率比テストと予測独立性テストのアイデアを組み合わせたものです。得られたE値は、逐次2サンプルテストに適している。
論文参考訳（メタデータ） (2022-10-24T08:18:36Z)
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (2022-03-27T06:38:39Z)
Consistent Training and Decoding For End-to-end Speech Recognition Using Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。 LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文参考訳（メタデータ） (2021-12-05T07:30:17Z)
Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文参考訳（メタデータ） (2021-11-17T12:10:03Z)
On Introducing Automatic Test Case Generation in Practice: A Success Story and Lessons Learned [7.717446055777458]
本稿では,中規模企業におけるシステムテストスイートの自動生成技術の導入経験について報告する。自動テストケース生成を導入する際に直面する技術的および組織的障害について説明する。弊社が開発したテストケースジェネレータ ABT2.0 を紹介します。
論文参考訳（メタデータ） (2021-02-28T11:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。