Fugu-MT 論文翻訳(概要): LLM-Guided Scenario-based GUI Testing

論文の概要: LLM-Guided Scenario-based GUI Testing

arxiv url: http://arxiv.org/abs/2506.05079v1
Date: Thu, 05 Jun 2025 14:27:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.754774
Title: LLM-Guided Scenario-based GUI Testing
Title（参考訳）: LLM-Guided Scenario-based GUI Testing
Authors: Shengcheng Yu, Yuchen Ling, Chunrong Fang, Quan Zhou, Chunyang Chen, Shaomin Zhu, Zhenyu Chen,
Abstract要約: ScenGenは、新しいLLM誘導シナリオベースのGUIテストアプローチで、5つのエージェントを含んでいる。 Observerは、GUIウィジェットを抽出し、GUIレイアウトを形成することで、アプリのGUI状態を認識する。次に、Executorはアプリの要求された操作を実行する。
参考スコア（独自算出の注目度）: 25.180945629233786
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The assurance of mobile app GUI is more and more significant. Automated GUI testing approaches of different strategies have been developed, while there are still huge gaps between the approaches and the app business logic, not taking the completion of specific testing scenarios as the exploration target, leading to the exploration missing of critical app functionalities. Learning from the manual testing, which takes testing scenarios with app business logic as the basic granularity, in this paper, we utilize the LLMs to understand the semantics presented in app GUI and how they are mapped in the testing context based on specific testing scenarios. Then, scenario-based GUI tests are generated with the guidance of multi-agent collaboration. Specifically, we propose ScenGen, a novel LLM-guided scenario-based GUI testing approach involving five agents to respectively take responsibilities of different phases of the manual testing process. The Observer perceives the app GUI state by extracting GUI widgets and forming GUI layouts, understanding the expressed semantics. Then the app GUI info is sent to the Decider to make decisions on target widgets based on the target testing scenarios. The decision-making process takes the completion of specific testing scenarios as the exploration target. The Executor then executes the demanding operations on the apps. The execution results are checked by the Supervisor on whether the generated tests are consistent with the completion target of the testing scenarios, ensuring the traceability of the test generation and execution. Furthermore, the corresponding GUI test operations are recorded to the context memory by Recorder as an important basis for further decision-making, meanwhile monitoring the runtime bug occurrences. ScenGen is evaluated and the results show that ScenGen can effectively generate scenario-based GUI tests guided by LLMs.
Abstract（参考訳）: モバイルアプリGUIの保証はますます重要になっている。異なる戦略によるGUIテストの自動化アプローチが開発されているが、アプローチとアプリビジネスロジックの間にはまだ大きなギャップがある。本稿では、アプリケーションビジネスロジックを用いたテストシナリオを基本的な粒度として捉えた手動テストから学習し、アプリケーションGUIに提示されるセマンティクスと、特定のテストシナリオに基づいてテストコンテキストにマッピングされる方法を理解するためにLLMを利用する。シナリオベースのGUIテストは、マルチエージェントコラボレーションのガイダンスによって生成される。具体的には、5つのエージェントがそれぞれ手動テストプロセスの異なるフェーズの責任を負う新しいLCM誘導シナリオベースのGUIテスト手法であるScenGenを提案する。 ObserverはGUIウィジェットを抽出し、GUIレイアウトを形成し、表現されたセマンティクスを理解することで、アプリのGUI状態を認識する。次に、アプリのGUI情報はDeciderに送られ、ターゲットのテストシナリオに基づいてターゲットウィジェットで決定される。意思決定プロセスは、特定のテストシナリオを探索対象として完了させる。次に、Executorはアプリの要求された操作を実行する。実行結果は、生成したテストがテストシナリオの完了目標と一致しているか、テスト生成と実行のトレーサビリティを保証するために、スーパーバイザによってチェックされる。さらに、対応するGUIテスト操作は、ランタイムバグの発生を監視しながら、さらに意思決定するための重要な基盤として、Recorderによってコンテキストメモリに記録される。 ScenGenを評価し、その結果、ScenGenはLLMでガイドされたシナリオベースのGUIテストを効果的に生成できることを示した。

関連論文リスト

ProBench: Benchmarking GUI Agents with Accurate Process Information [15.519853892615272]
ProBenchは、広く使われているシナリオをカバーする200以上のGUIタスクからなる包括的なベンチマークである。データセットをプロセス関連タスクに拡張し、特殊な評価手法を設計する。先進的なGUIエージェントを評価した結果,現実のGUIシナリオには大きな制限があることがわかった。
論文参考訳（メタデータ） (2025-11-12T09:49:31Z)
AUTO-Explorer: Automated Data Collection for GUI Agent [58.58097564914626]
本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
論文参考訳（メタデータ） (2025-11-09T15:13:45Z)
GUISpector: An MLLM Agent Framework for Automated Verification of Natural Language Requirements in GUI Prototypes [58.197090145723735]
本稿では,GUIプロトタイプにおけるNL要求の自動検証にマルチモーダル(M)LLMエージェントを利用する新しいフレームワークを提案する。 GuiSpectorはエージェントの検証プロセスから詳細なNLフィードバックを抽出し、開発者に実行可能な洞察を提供する。本稿では,これらの機能を統合化し,検証実行の監視,エージェントの合理性検査,エンドツーエンドの要件検証プロセスの管理を行うインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-06T13:15:24Z)
GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文参考訳（メタデータ） (2025-06-05T04:12:36Z)
ViMoTest: A Tool to Specify ViewModel-Based GUI Test Scenarios using Projectional Editing [0.8010120037374623]
GUIフレームワークとは独立してプレゼンテーションロジックをテストするためのViMoTestツールを紹介します。我々は、このツールを小さなJavaFXベースのタスクマネージャの例でデモし、実行可能なコードを生成する。
論文参考訳（メタデータ） (2025-04-23T14:26:35Z)
ReuseDroid: A VLM-empowered Android UI Test Migrator Boosted by Active Feedback [11.624163693084446]
本稿では,大規模視覚言語モデル(VLM)によるGUIテストマイグレーションのための新しいマルチエージェントフレームワークであるREUSEDROIDを提案する。 REUSEDROIDの洞察は、同じアプリ間で共有されるコアロジックのみに基づいて、テストを移行することである。テストマイグレーションデータセットであるLinPro上でREUSEDROIDを評価する。
論文参考訳（メタデータ） (2025-04-03T07:45:09Z)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。 NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文参考訳（メタデータ） (2025-01-23T18:16:21Z)
GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文参考訳（メタデータ） (2024-12-24T13:41:47Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文参考訳（メタデータ） (2024-11-27T12:13:39Z)
GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文参考訳（メタデータ） (2024-06-14T17:59:08Z)
Practical, Automated Scenario-based Mobile App Testing [13.52057950260007]
ヒューマンテスタが開発したテストスクリプトは、テストシナリオに集中してビジネスロジックを検討する。モバイルアプリのGUI集約的な機能のため、ヒューマンテスタは常にアプリケーションのGUIを理解して、シナリオのテストスクリプトを整理します。 ScenTestは、ヒューマンプラクティスを模倣し、ドメイン知識をシナリオベースのモバイルアプリテストに統合することで、自動テストを開始する。
論文参考訳（メタデータ） (2024-06-12T15:48:39Z)
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T15:28:38Z)
You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-09-20T16:12:32Z)
Test Script Intention Generation for Mobile Application via GUI Image and Code Understanding [12.973016336177047]
テストスクリプトは、ソースコードのテストケースよりも、モバイルアプリのテストにおいて重要な役割を果たす。 TestIntentionはGUIテストスクリプトの意図を推測する新しいアプローチである。すべての操作の結果が組み合わされ、テストスクリプトのテスト意図が生成される。
論文参考訳（メタデータ） (2021-07-12T02:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。