Fugu-MT 論文翻訳(概要): VLM-Fuzz: Vision Language Model Assisted Recursive Depth-first Search Exploration for Effective UI Testing of Android Apps

論文の概要: VLM-Fuzz: Vision Language Model Assisted Recursive Depth-first Search Exploration for Effective UI Testing of Android Apps

arxiv url: http://arxiv.org/abs/2504.11675v1
Date: Wed, 16 Apr 2025 00:19:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 22:32:48.266271
Title: VLM-Fuzz: Vision Language Model Assisted Recursive Depth-first Search Exploration for Effective UI Testing of Android Apps
Title（参考訳）: VLM-Fuzz: Androidアプリの効果的なUIテストのための再帰的深度探索を支援するビジョン言語モデル
Authors: Biniam Fisseha Demissie, Yan Naing Tun, Lwin Khin Shar, Mariano Ceccato,
Abstract要約: Androidアプリを効果的にテストするには、アプリの可能な状態を体系的に調査する必要がある。そこで本研究では,AndroidアプリのUIを効果的にテストするための,VLM-Fuzzと呼ばれる新しいファジリング手法を提案する。
参考スコア（独自算出の注目度）: 6.122273281101832
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Testing Android apps effectively requires a systematic exploration of the app's possible states by simulating user interactions and system events. While existing approaches have proposed several fuzzing techniques to generate various text inputs and trigger user and system events for UI state exploration, achieving high code coverage remains a significant challenge in Android app testing. The main challenges are (1) reasoning about the complex and dynamic layout of UI screens; (2) generating required inputs/events to deal with certain widgets like pop-ups; and (3) coordination between current test inputs and previous inputs to avoid getting stuck in the same UI screen without improving test coverage. To address these problems, we propose a novel, automated fuzzing approach called VLM-Fuzz for effective UI testing of Android apps. We present a novel heuristic-based depth-first search (DFS) exploration algorithm, assisted with a vision language model (VLM), to effectively explore the UI states of the app. We use static analysis to analyze the Android Manifest file and the runtime UI hierarchy XML to extract the list of components, intent-filters and interactive UI widgets. VLM is used to reason about complex UI layout and widgets on an on-demand basis. Based on the inputs from static analysis, VLM, and the current UI state, we use some heuristics to deal with the above-mentioned challenges. We evaluated VLM-Fuzz based on a benchmark containing 59 apps obtained from a recent work and compared it against two state-of-the-art approaches: APE and DeepGUI. VLM-Fuzz outperforms the best baseline by 9.0%, 3.7%, and 2.1% in terms of class coverage, method coverage, and line coverage, respectively. We also ran VLM-Fuzz on 80 recent Google Play apps (i.e., updated in 2024). VLM-Fuzz detected 208 unique crashes in 24 apps, which have been reported to respective developers.
Abstract（参考訳）: Androidアプリを効果的にテストするには、ユーザインタラクションとシステムイベントをシミュレートすることで、アプリの可能な状態を体系的に調査する必要がある。既存のアプローチでは、さまざまなテキスト入力を生成し、UI状態探索のためにユーザとシステムイベントをトリガーするファジィング技術が提案されているが、高いコードカバレッジを実現することは、Androidアプリのテストにおいて重要な課題である。主な課題は、(1)UI画面の複雑なレイアウトと動的なレイアウトを推論すること、(2)ポップアップのような特定のウィジェットを扱うために必要なインプット/イベントを生成すること、(3)テストのインプットと以前のインプットの調整によって、テストカバレッジを改善することなく同じUI画面に留まらないようにすることである。これらの問題に対処するために,AndroidアプリのUIを効果的にテストするための,VLM-Fuzzと呼ばれる新しいファジリング手法を提案する。本稿では,視覚言語モデル(VLM)を用いたヒューリスティックなディープファーストサーチ(DFS)探索アルゴリズムを提案し,アプリのUI状態を効果的に探索する。静的解析を用いて、Android ManifestファイルとランタイムUI階層XMLを分析し、コンポーネント、インテントフィルタ、インタラクティブUIウィジェットのリストを抽出します。 VLMは複雑なUIレイアウトとウィジェットをオンデマンドで推論するために使用される。静的解析、VLM、そして現在のUI状態からの入力に基づいて、上記の課題に対処するためにヒューリスティックスを使用します。我々は、最近の研究から得られた59個のアプリを含むベンチマークに基づいてVLM-Fuzzを評価し、APEとDeepGUIの2つの最先端アプローチと比較した。 VLM-Fuzzは、クラスカバレッジ、メソッドカバレッジ、ラインカバレッジにおいて、それぞれ9.0%、3.7%、および2.1%で最高のベースラインを上回っている。また、最近のGoogle Playアプリ80本(つまり2024年にアップデートされた)でVLM-Fuzzを実行しました。 VLM-Fuzzは24のアプリに208のユニークなクラッシュを検出し、それぞれの開発者に報告されている。

関連論文リスト

Toward Autonomous UI Exploration: The UIExplorer Benchmark [10.669221849705165]
UIエクスプローラーベンチ(UIExplore-Bench)は、UI探索に特化した最初のベンチマークである。ベンチマークでは、標準化されたGitLabサンドボックス環境において、構造化モード(DOMツリーのようなレイアウト情報へのアクセスをグラニングする)またはスクリーンモード(スクリーンショットやヒューマンライクなマウス/キーボードのインタラクションのようなGUIのみの観察に基づいて)のエージェントを3つのレベルにわたって評価している。以上の結果から,UIExplore-AlGoは平均hUFOスコアを最大77.2%,スクリーンモードは最大59.0%,Sparseレベルは特に優れていた。
論文参考訳（メタデータ） (2025-06-21T18:16:27Z)
MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。 GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2025-06-03T17:59:08Z)
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-22T16:01:06Z)
Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2025-05-01T17:45:59Z)
AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文参考訳（メタデータ） (2025-02-04T03:39:59Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Beyond Pass or Fail: Multi-Dimensional Benchmarking of Foundation Models for Goal-based Mobile UI Navigation [15.80796682874844]
ユーザインタフェース(UI)ナビゲーションの産業的設定における基礎モデル(FM)の評価のためのベンチマークであるSphinxを提案する。 Google PlayアプリケーションとWeChatの内部UIテストケースの両方を使用して、20の異なる構成を持つ8つのFMを評価した。その結果、既存のFMは、主にUI固有の機能不足のため、ゴールベースのテストタスクに普遍的に苦労していることがわかった。
論文参考訳（メタデータ） (2025-01-06T09:10:11Z)
Model-Enhanced LLM-Driven VUI Testing of VPA Apps [10.451676569481148]
モデル強化型大規模言語モデル(LLM)駆動型VUIテストフレームワークであるElevateを紹介した。これは、最先端のテスタであるVitasに対して、4000の現実世界のAlexaスキルでベンチマークされている。あらゆる種類のアプリでVitaよりも15%高いステートスペースカバレッジを実現しており、効率が大幅に向上している。
論文参考訳（メタデータ） (2024-07-03T03:36:05Z)
Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文参考訳（メタデータ） (2024-06-12T02:43:19Z)
Large Language Models for Mobile GUI Text Input Generation: An Empirical Study [24.256184336154544]
大規模言語モデル(LLM)は優れたテキスト生成機能を示している。本稿では,UIページに対するAndroidテキスト入力生成における9つの最先端LCMの有効性を広範囲に検討する。
論文参考訳（メタデータ） (2024-04-13T09:56:50Z)
Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。機能認識型メモリプロンプト機構を導入する。アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文参考訳（メタデータ） (2023-10-24T12:30:26Z)
ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文参考訳（メタデータ） (2023-10-07T16:32:34Z)
Multi-modal Queried Object Detection in the Wild [72.16067634379226]
MQ-Detは、現実世界のオブジェクト検出のための効率的なアーキテクチャと事前学習戦略設計である。既存の言語クエリのみの検出器に視覚クエリを組み込む。 MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略設計は、ほとんどの言語でクエリされたオブジェクト検出器と互換性がある。
論文参考訳（メタデータ） (2023-05-30T12:24:38Z)
Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。 Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文参考訳（メタデータ） (2023-05-16T13:46:52Z)
Emerging App Issue Identification via Online Joint Sentiment-Topic Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。 AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。 Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文参考訳（メタデータ） (2020-08-23T06:34:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。