論文の概要: LLM-Guided Scenario-based GUI Testing
- arxiv url: http://arxiv.org/abs/2506.05079v3
- Date: Fri, 31 Oct 2025 07:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 13:41:53.39584
- Title: LLM-Guided Scenario-based GUI Testing
- Title(参考訳): LLM-Guided Scenario-based GUI Testing
- Authors: Shengcheng Yu, Yuchen Ling, Chunrong Fang, Quan Zhou, Yi Zhao, Chunyang Chen, Shaomin Zhu, Zhenyu Chen,
- Abstract要約: 本稿では,GUIのセマンティクスと文脈的関連性を理解するために,大規模言語モデルを活用するアプローチを提案する。
手動テストフェーズをシミュレートし,自動化するためにマルチエージェント協調を用いたシナリオベースGUIテストフレームワークであるScenGenを提案する。
- 参考スコア(独自算出の注目度): 22.70111721644705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The assurance of mobile app GUIs has become increasingly important, as the GUI serves as the primary medium of interaction between users and apps. Although numerous automated GUI testing approaches have been developed with diverse strategies, a substantial gap remains between these approaches and the underlying app business logic. Most existing approaches focus on general exploration rather than the completion of specific testing scenarios, often missing critical functionalities. Inspired by manual testing, which treats business logic-driven scenarios as the fundamental unit of testing, this paper introduces an approach that leverages large language models to comprehend GUI semantics and contextual relevance to given scenarios. Building on this capability, we propose ScenGen, an LLM-guided scenario-based GUI testing framework employing multi-agent collaboration to simulate and automate manual testing phases. Specifically, ScenGen integrates five agents: the Observer, Decider, Executor, Supervisor, and Recorder. The Observer perceives the app GUI state by extracting and structuring GUI widgets and layouts, interpreting semantic information. This is passed to the Decider, which makes scenario-driven decisions with LLM guidance to identify target widgets and determine actions toward fulfilling specific goals. The Executor performs these operations, while the Supervisor verifies alignment with intended scenario completion, ensuring traceability and consistency. Finally, the Recorder logs GUI operations into context memory as a knowledge base for subsequent decision-making and monitors runtime bugs. Comprehensive evaluations demonstrate that ScenGen effectively generates scenario-based GUI tests guided by LLM collaboration, achieving higher relevance to business logic and improving the completeness of automated GUI testing.
- Abstract(参考訳): ユーザとアプリの相互作用の主要な媒体としてGUIが機能するため、モバイルアプリGUIの保証がますます重要になっている。
さまざまな戦略で多数の自動GUIテストアプローチが開発されているが、これらのアプローチと基礎となるアプリケーションビジネスロジックとの間には大きなギャップが残っている。
既存のアプローチのほとんどは、特定のテストシナリオの完了ではなく、一般的な探索に重点を置いている。
ビジネスロジック駆動のシナリオをテストの基本単位として扱う手動テストに触発された本論文では,GUIのセマンティクスとコンテキスト関連性を理解するために,大規模言語モデルを活用するアプローチを提案する。
そこで本研究では,多エージェント協調を用いたシナリオベースGUIテストフレームワークであるScenGenを提案し,手動テストフェーズのシミュレーションと自動化を行う。
具体的には、ScenGenはObserver, Decider, Executor, Supervisor, Recorderという5つのエージェントを統合している。
Observerは、GUIウィジェットとレイアウトを抽出して構造化し、セマンティック情報を解釈することで、アプリのGUI状態を認識する。
この決定はLLMガイダンスを用いてシナリオ駆動決定を行い、ターゲットウィジェットを特定し、特定の目標を達成するためのアクションを決定する。
Executorはこれらの操作を実行し、Supervisorは意図したシナリオの完了と整合性を確認し、トレーサビリティと一貫性を保証する。
最後に、Re Recorderは、次の意思決定のための知識ベースとしてGUI操作をコンテキストメモリにログし、ランタイムバグを監視します。
総合的な評価では、ScenGenはLLMコラボレーションによって導かれるシナリオベースのGUIテストを効果的に生成し、ビジネスロジックとの関連性を高め、自動GUIテストの完全性を向上させる。
関連論文リスト
- GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。
まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。
第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - ViMoTest: A Tool to Specify ViewModel-Based GUI Test Scenarios using Projectional Editing [0.8010120037374623]
GUIフレームワークとは独立してプレゼンテーションロジックをテストするためのViMoTestツールを紹介します。
我々は、このツールを小さなJavaFXベースのタスクマネージャの例でデモし、実行可能なコードを生成する。
論文 参考訳(メタデータ) (2025-04-23T14:26:35Z) - ReuseDroid: A VLM-empowered Android UI Test Migrator Boosted by Active Feedback [11.624163693084446]
本稿では,大規模視覚言語モデル(VLM)によるGUIテストマイグレーションのための新しいマルチエージェントフレームワークであるREUSEDROIDを提案する。
REUSEDROIDの洞察は、同じアプリ間で共有されるコアロジックのみに基づいて、テストを移行することである。
テストマイグレーションデータセットであるLinPro上でREUSEDROIDを評価する。
論文 参考訳(メタデータ) (2025-04-03T07:45:09Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - Practical, Automated Scenario-based Mobile App Testing [13.52057950260007]
ヒューマンテスタが開発したテストスクリプトは、テストシナリオに集中してビジネスロジックを検討する。
モバイルアプリのGUI集約的な機能のため、ヒューマンテスタは常にアプリケーションのGUIを理解して、シナリオのテストスクリプトを整理します。
ScenTestは、ヒューマンプラクティスを模倣し、ドメイン知識をシナリオベースのモバイルアプリテストに統合することで、自動テストを開始する。
論文 参考訳(メタデータ) (2024-06-12T15:48:39Z) - Test Script Intention Generation for Mobile Application via GUI Image and Code Understanding [12.973016336177047]
テストスクリプトは、ソースコードのテストケースよりも、モバイルアプリのテストにおいて重要な役割を果たす。
TestIntentionはGUIテストスクリプトの意図を推測する新しいアプローチである。
すべての操作の結果が組み合わされ、テストスクリプトのテスト意図が生成される。
論文 参考訳(メタデータ) (2021-07-12T02:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。