論文の概要: Streamlining Acceptance Test Generation for Mobile Applications Through Large Language Models: An Industrial Case Study
- arxiv url: http://arxiv.org/abs/2510.18861v1
- Date: Tue, 21 Oct 2025 17:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.119596
- Title: Streamlining Acceptance Test Generation for Mobile Applications Through Large Language Models: An Industrial Case Study
- Title(参考訳): 大規模言語モデルによるモバイルアプリケーションの合理化テスト生成:産業事例研究
- Authors: Pedro Luís Fonseca, Bruno Lima, João Pascoal Faria,
- Abstract要約: AToMICは受け入れテストアーティファクトを作成するための自動化フレームワークである。
これはBMWのMyBMWアプリに適用され、170以上のスクリーンで13の現実世界の問題をカバーしています。
AToMICは標準ハードウェアで1機能あたり5分未満で実行可能なテストアーティファクトを生産した。
- 参考スコア(独自算出の注目度): 0.5352699766206807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile acceptance testing remains a bottleneck in modern software development, particularly for cross-platform mobile development using frameworks like Flutter. While developers increasingly rely on automated testing tools, creating and maintaining acceptance test artifacts still demands significant manual effort. To help tackle this issue, we introduce AToMIC, an automated framework leveraging specialized Large Language Models to generate Gherkin scenarios, Page Objects, and executable UI test scripts directly from requirements (JIRA tickets) and recent code changes. Applied to BMW's MyBMW app, covering 13 real-world issues in a 170+ screen codebase, AToMIC produced executable test artifacts in under five minutes per feature on standard hardware. The generated artifacts were of high quality: 93.3% of Gherkin scenarios were syntactically correct upon generation, 78.8% of PageObjects ran without manual edits, and 100% of generated UI tests executed successfully. In a survey, all practitioners reported time savings (often a full developer-day per feature) and strong confidence in adopting the approach. These results confirm AToMIC as a scalable, practical solution for streamlining acceptance test creation and maintenance in industrial mobile projects.
- Abstract(参考訳): モバイル受け入れテストは、現代のソフトウェア開発において、特にFlutterのようなフレームワークを使用したクロスプラットフォームなモバイル開発において、依然としてボトルネックとなっている。
開発者はますます自動テストツールに依存しているが、受け入れテストアーティファクトの作成とメンテナンスには依然としてかなりの手作業が必要である。
AToMICは、Gherkinシナリオ、ページオブジェクト、実行可能なUIテストスクリプトを要件(JIRAチケット)と最近のコード変更から直接生成する。
BMWのMyBMWアプリに適用され、170以上のスクリーンコードベースで13の現実世界の問題をカバーし、AToMICは標準ハードウェアで1機能あたり5分未満で実行可能なテストアーティファクトを生産した。
生成したアーティファクトは高品質で、Gherkinのシナリオの93.3%は生成時に構文的に正しく、PageObjectsの78.8%は手動編集なしで実行され、生成したUIテストの100%は正常に実行された。
調査では、すべての実践者が、時間節約(機能ごとの完全な開発者日)と、アプローチの採用に対する強い信頼を報告した。
これらの結果は、産業用モバイルプロジェクトにおける受け入れテストの作成とメンテナンスを合理化するためのスケーラブルで実用的なソリューションとして、AToMICを確認した。
関連論文リスト
- Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。
単体テストはテストケースの大部分を占め、しばしばスキーマ的である。
本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-07-18T11:23:17Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。