論文の概要: VLM-Fuzz: Vision Language Model Assisted Recursive Depth-first Search Exploration for Effective UI Testing of Android Apps
- arxiv url: http://arxiv.org/abs/2504.11675v1
- Date: Wed, 16 Apr 2025 00:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 18:06:37.698063
- Title: VLM-Fuzz: Vision Language Model Assisted Recursive Depth-first Search Exploration for Effective UI Testing of Android Apps
- Title(参考訳): VLM-Fuzz: Androidアプリの効果的なUIテストのための再帰的深度探索を支援するビジョン言語モデル
- Authors: Biniam Fisseha Demissie, Yan Naing Tun, Lwin Khin Shar, Mariano Ceccato,
- Abstract要約: Androidアプリを効果的にテストするには、アプリの可能な状態を体系的に調査する必要がある。
そこで本研究では,AndroidアプリのUIを効果的にテストするための,VLM-Fuzzと呼ばれる新しいファジリング手法を提案する。
- 参考スコア(独自算出の注目度): 6.122273281101832
- License:
- Abstract: Testing Android apps effectively requires a systematic exploration of the app's possible states by simulating user interactions and system events. While existing approaches have proposed several fuzzing techniques to generate various text inputs and trigger user and system events for UI state exploration, achieving high code coverage remains a significant challenge in Android app testing. The main challenges are (1) reasoning about the complex and dynamic layout of UI screens; (2) generating required inputs/events to deal with certain widgets like pop-ups; and (3) coordination between current test inputs and previous inputs to avoid getting stuck in the same UI screen without improving test coverage. To address these problems, we propose a novel, automated fuzzing approach called VLM-Fuzz for effective UI testing of Android apps. We present a novel heuristic-based depth-first search (DFS) exploration algorithm, assisted with a vision language model (VLM), to effectively explore the UI states of the app. We use static analysis to analyze the Android Manifest file and the runtime UI hierarchy XML to extract the list of components, intent-filters and interactive UI widgets. VLM is used to reason about complex UI layout and widgets on an on-demand basis. Based on the inputs from static analysis, VLM, and the current UI state, we use some heuristics to deal with the above-mentioned challenges. We evaluated VLM-Fuzz based on a benchmark containing 59 apps obtained from a recent work and compared it against two state-of-the-art approaches: APE and DeepGUI. VLM-Fuzz outperforms the best baseline by 9.0%, 3.7%, and 2.1% in terms of class coverage, method coverage, and line coverage, respectively. We also ran VLM-Fuzz on 80 recent Google Play apps (i.e., updated in 2024). VLM-Fuzz detected 208 unique crashes in 24 apps, which have been reported to respective developers.
- Abstract(参考訳): Androidアプリを効果的にテストするには、ユーザインタラクションとシステムイベントをシミュレートすることで、アプリの可能な状態を体系的に調査する必要がある。
既存のアプローチでは、さまざまなテキスト入力を生成し、UI状態探索のためにユーザとシステムイベントをトリガーするファジィング技術が提案されているが、高いコードカバレッジを実現することは、Androidアプリのテストにおいて重要な課題である。
主な課題は、(1)UI画面の複雑なレイアウトと動的なレイアウトを推論すること、(2)ポップアップのような特定のウィジェットを扱うために必要なインプット/イベントを生成すること、(3)テストのインプットと以前のインプットの調整によって、テストカバレッジを改善することなく同じUI画面に留まらないようにすることである。
これらの問題に対処するために,AndroidアプリのUIを効果的にテストするための,VLM-Fuzzと呼ばれる新しいファジリング手法を提案する。
本稿では,視覚言語モデル(VLM)を用いたヒューリスティックなディープファーストサーチ(DFS)探索アルゴリズムを提案し,アプリのUI状態を効果的に探索する。
静的解析を用いて、Android ManifestファイルとランタイムUI階層XMLを分析し、コンポーネント、インテントフィルタ、インタラクティブUIウィジェットのリストを抽出します。
VLMは複雑なUIレイアウトとウィジェットをオンデマンドで推論するために使用される。
静的解析、VLM、そして現在のUI状態からの入力に基づいて、上記の課題に対処するためにヒューリスティックスを使用します。
我々は、最近の研究から得られた59個のアプリを含むベンチマークに基づいてVLM-Fuzzを評価し、APEとDeepGUIの2つの最先端アプローチと比較した。
VLM-Fuzzは、クラスカバレッジ、メソッドカバレッジ、ラインカバレッジにおいて、それぞれ9.0%、3.7%、および2.1%で最高のベースラインを上回っている。
また、最近のGoogle Playアプリ80本(つまり2024年にアップデートされた)でVLM-Fuzzを実行しました。
VLM-Fuzzは24のアプリに208のユニークなクラッシュを検出し、それぞれの開発者に報告されている。
関連論文リスト
- AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。
具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。
提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Beyond Pass or Fail: Multi-Dimensional Benchmarking of Foundation Models for Goal-based Mobile UI Navigation [15.80796682874844]
ユーザインタフェース(UI)ナビゲーションの産業的設定における基礎モデル(FM)の評価のためのベンチマークであるSphinxを提案する。
Google PlayアプリケーションとWeChatの内部UIテストケースの両方を使用して、20の異なる構成を持つ8つのFMを評価した。
その結果、既存のFMは、主にUI固有の機能不足のため、ゴールベースのテストタスクに普遍的に苦労していることがわかった。
論文 参考訳(メタデータ) (2025-01-06T09:10:11Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - Model-Enhanced LLM-Driven VUI Testing of VPA Apps [10.451676569481148]
モデル強化型大規模言語モデル(LLM)駆動型VUIテストフレームワークであるElevateを紹介した。
これは、最先端のテスタであるVitasに対して、4000の現実世界のAlexaスキルでベンチマークされている。
あらゆる種類のアプリでVitaよりも15%高いステートスペースカバレッジを実現しており、効率が大幅に向上している。
論文 参考訳(メタデータ) (2024-07-03T03:36:05Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Large Language Models for Mobile GUI Text Input Generation: An Empirical Study [24.256184336154544]
大規模言語モデル(LLM)は優れたテキスト生成機能を示している。
本稿では,UIページに対するAndroidテキスト入力生成における9つの最先端LCMの有効性を広範囲に検討する。
論文 参考訳(メタデータ) (2024-04-13T09:56:50Z) - Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI
Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。
機能認識型メモリプロンプト機構を導入する。
アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文 参考訳(メタデータ) (2023-10-24T12:30:26Z) - Multi-modal Queried Object Detection in the Wild [72.16067634379226]
MQ-Detは、現実世界のオブジェクト検出のための効率的なアーキテクチャと事前学習戦略設計である。
既存の言語クエリのみの検出器に視覚クエリを組み込む。
MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略設計は、ほとんどの言語でクエリされたオブジェクト検出器と互換性がある。
論文 参考訳(メタデータ) (2023-05-30T12:24:38Z) - Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。
そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文 参考訳(メタデータ) (2023-05-16T13:46:52Z) - Emerging App Issue Identification via Online Joint Sentiment-Topic
Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。
AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。
Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文 参考訳(メタデータ) (2020-08-23T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。