論文の概要: Improving Random Testing via LLM-powered UI Tarpit Escaping for Mobile Apps
- arxiv url: http://arxiv.org/abs/2604.06763v1
- Date: Wed, 08 Apr 2026 07:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.398324
- Title: Improving Random Testing via LLM-powered UI Tarpit Escaping for Mobile Apps
- Title(参考訳): LLMを使ったモバイルアプリのUIターゲットエスケープによるランダムテストの改善
- Authors: Mengqian Xu, Yiheng Xiong, Le Chang, Ting Su, Chengcheng Wan, Weikai Miao,
- Abstract要約: LLMを用いたランダムGUIテストは、ランダムテスト中にUIタロットを緩和する新しいハイブリッドテスト手法である。
提案手法はUIの類似性を監視して,タルピートを識別し,LLMをクエリして,遭遇したタルピートをエスケープする有望なイベントを提案する。
HybridMonkeyとHybridDroidbotはすべてのベースラインを上回り、それぞれ54.8%と44.8%の平均カバレッジ改善を達成した。
- 参考スコア(独自算出の注目度): 5.901783684504153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random GUI testing is a widely-used technique for testing mobile apps. However, its effectiveness is limited by the notorious issue -- UI exploration tarpits, where the exploration is trapped in local UI regions, thus impeding test coverage and bug discovery. In this experience paper, we introduce LLM-powered random GUI Testing, a novel hybrid testing approach to mitigating UI tarpits during random testing. Our approach monitors UI similarity to identify tarpits and query LLMs to suggest promising events for escaping the encountered tarpits. We implement our approach on top of two different automated input generation (AIG) tools for mobile apps: (1) HybridMonkey upon Monkey, a state-of-the-practice tool; and (2) HybridDroidbot upon Droidbot, a state-of-the-art tool. We evaluated them on 12 popular, real-world apps. The results show that HybridMonkey and HybridDroidbot outperform all baselines, achieving average coverage improvements of 54.8% and 44.8%, respectively, and detecting the highest number of unique crashes. In total, we found 75 unique bugs, including 34 previously unknown bugs. To date, 26 bugs have been confirmed and fixed. We also applied HybridMonkey on WeChat, a popular industrial app with billions of monthly active users. HybridMonkey achieved higher activity coverage and found more bugs than random testing.
- Abstract(参考訳): ランダムGUIテストは、モバイルアプリをテストするために広く使われているテクニックである。
しかし、その有効性は悪名高い問題、つまり、ローカルUIリージョンで探索が妨げられ、テストカバレッジとバグ発見を妨げているUI探索タロットによって制限されている。
本稿では,LLMを用いたランダムGUIテストについて紹介する。
提案手法はUIの類似性を監視して,タルピートを識別し,LLMをクエリして,遭遇したタルピートをエスケープする有望なイベントを提案する。
我々は,モバイルアプリ用の2つの異なる自動入力生成(AIG)ツール上に,アプローチを実装している。(1) Monkey上のHybridMonkey,(2) 最先端ツールDroidbot上のHybridDroidbot。
人気の高い現実世界の12のアプリで評価しました。
その結果、HybridMonkeyとHybridDroidbotは全てのベースラインを上回り、それぞれ54.8%と44.8%の平均カバレッジ向上を達成した。
合計で75のユニークなバグを発見しました。
現在までに26のバグが確認され、修正されている。
WeChatにもHybridMonkeyを適用しました。
HybridMonkeyは、アクティビティカバレッジを向上し、ランダムテストよりも多くのバグを発見した。
関連論文リスト
- Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis [57.40527331817245]
非回帰テストにおけるテストオラクル生成は、ソフトウェア工学における長年の課題である。
この課題に対処するための新しいマルチエージェントフレームワークであるNexusを紹介します。
論文 参考訳(メタデータ) (2025-10-30T12:20:25Z) - VLM-Fuzz: Vision Language Model Assisted Recursive Depth-first Search Exploration for Effective UI Testing of Android Apps [6.122273281101832]
Androidアプリを効果的にテストするには、アプリの可能な状態を体系的に調査する必要がある。
そこで本研究では,AndroidアプリのUIを効果的にテストするための,VLM-Fuzzと呼ばれる新しいファジリング手法を提案する。
論文 参考訳(メタデータ) (2025-04-16T00:19:31Z) - Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
APIプロバイダは、基本モデルの定量化、透かし、微調整を行い、出力分布を変更することができる。
モデル平等テスト(Model Equality Testing)は,2サンプルテスト問題である。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Practical Non-Intrusive GUI Exploration Testing with Visual-based
Robotic Arms [14.3266199543725]
視覚ロボットアームを用いた実用的な非侵襲的GUIテストフレームワークを提案する。
RoboTestは、新しいGUI画面とウィジェット検出アルゴリズムを統合し、異なるサイズのスクリーンに適応する。
20のモバイルアプリでRoboTestを評価し,組込みシステムのケーススタディを行った。
論文 参考訳(メタデータ) (2023-12-17T09:05:39Z) - Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI
Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。
機能認識型メモリプロンプト機構を導入する。
アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文 参考訳(メタデータ) (2023-10-24T12:30:26Z) - Testing the Limits: Unusual Text Inputs Generation for Mobile App Crash
Detection with Large Language Model [23.460051600514806]
本稿では,モバイルアプリのクラッシュ検出のための異常なテキスト入力を自動的に生成するInputBlasterを提案する。
異常な入力生成問題をテストジェネレータのセットを生成するタスクとして定式化し、それぞれが異常なテキスト入力のバッチを生成する。
36のテキスト入力ウィジェットで評価され、31の人気のあるAndroidアプリを含むキャッシュバグがあり、その結果、バグ検出率は78%で、最高のベースラインよりも136%高い。
論文 参考訳(メタデータ) (2023-10-24T09:10:51Z) - Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。
そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文 参考訳(メタデータ) (2023-05-16T13:46:52Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。