論文の概要: ReuseDroid: A VLM-empowered Android UI Test Migrator Boosted by Active Feedback
- arxiv url: http://arxiv.org/abs/2504.02357v1
- Date: Thu, 03 Apr 2025 07:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:40.968987
- Title: ReuseDroid: A VLM-empowered Android UI Test Migrator Boosted by Active Feedback
- Title(参考訳): ReuseDroid:アクティブフィードバックで強化されたVLM搭載のAndroid UIテストミグレータ
- Authors: Xiaolei Li, Jialun Cao, Yepang Liu, Shing-Chi Cheung, Hailong Wang,
- Abstract要約: 本稿では,大規模視覚言語モデル(VLM)によるGUIテストマイグレーションのための新しいマルチエージェントフレームワークであるREUSEDROIDを提案する。
REUSEDROIDの洞察は、同じアプリ間で共有されるコアロジックのみに基づいて、テストを移行することである。
テストマイグレーションデータセットであるLinPro上でREUSEDROIDを評価する。
- 参考スコア(独自算出の注目度): 11.624163693084446
- License:
- Abstract: GUI testing is an essential quality assurance process in mobile app development. However, the creation and maintenance of GUI tests for mobile apps are resource-intensive and costly. Recognizing that many apps share similar functionalities, researchers have proposed various techniques to migrate GUI tests from one app to another with similar features. For example, some techniques employ mapping-based approaches to align the GUI elements traversed by the tests of a source app to those present in the target app. Other test migration techniques have also been proposed to leverage large language models (LLMs) by adapting the GUI tasks in source tests. However, these techniques are ineffective in dealing with different operational logic between the source and target apps. The semantics of GUI elements may not be correctly inferred due to the missing analysis of these flows. In this work, we propose REUSEDROID, a novel multiagent framework for GUI test migration empowered by Large Vision-Language Models (VLMs). REUSEDROID is powered by multiple VLM-based agents, each tackling a stage of the test migration process by leveraging the relevant visual and textual information embedded in GUI pages. An insight of REUSEDROID is to migrate tests based only on the core logic shared across similar apps, while their entire operational logic could differ. We evaluate REUSEDROID on LinPro, a new test migration dataset that consists of 578 migration tasks for 39 popular apps across 4 categories. The experimental result shows that REUSEDROID can successfully migrate 90.3% of the migration tasks, outperforming the best mapping-based and LLM-based baselines by 318.1% and 109.1%, respectively.
- Abstract(参考訳): GUIテストはモバイルアプリ開発において不可欠な品質保証プロセスである。
しかし、モバイルアプリ向けのGUIテストの作成とメンテナンスはリソース集約的でコストがかかる。
多くのアプリが同様の機能を共有していることを認識し、研究者は同様の機能を持つGUIテストをあるアプリから別のアプリに移行するための様々なテクニックを提案している。
例えば、いくつかのテクニックでは、ソースアプリのテストによってトラバースされたGUI要素を、ターゲットアプリに存在するものと整合させるために、マッピングベースのアプローチを採用している。
ソーステストにGUIタスクを適用することで、大きな言語モデル(LLM)を活用するために、他のテストマイグレーション技術も提案されている。
しかし、これらのテクニックはソースとターゲットアプリの間の異なる操作ロジックを扱うのに効果がない。
GUI要素のセマンティクスは、これらのフローが欠落しているため、正しく推論できない。
本稿では,Large Vision-Language Models (VLM) によるGUIテストマイグレーションのための新しいマルチエージェントフレームワークであるREUSEDROIDを提案する。
REUSEDROIDは複数のVLMベースのエージェントを使用しており、それぞれがGUIページに埋め込まれた関連する視覚情報とテキスト情報を活用することで、テストマイグレーションプロセスのステージに取り組む。
REUSEDROIDの洞察は、同じアプリ間で共有されるコアロジックのみに基づいて、テストを移行することである。
テストマイグレーションデータセットであるLinPro上でREUSEDROIDを評価する。このデータセットは、4つのカテゴリで39の人気アプリを対象とした578のマイグレーションタスクで構成されている。
実験の結果、REUSEDROIDは90.3%のマイグレーションタスクをうまく移行でき、それぞれ318.1%、LLMベースのベースラインを109.1%上回る結果となった。
関連論文リスト
- Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Automated Test Transfer Across Android Apps Using Large Language Models [7.865081492588628]
本稿では、LLM(Large Language Models)を活用して、モバイルアプリ間で使用量ベースのUIテストを効率的に転送する革新的な手法であるLLMigrateを紹介する。
LLMigrateは自動テスト転送で97.5%の成功率を達成でき、スクラッチからテストを書くのに必要な手作業が91.1%削減された。
論文 参考訳(メタデータ) (2024-11-26T23:06:09Z) - Skill-Adpative Imitation Learning for UI Test Reuse [13.538724823517292]
UIテストマイグレーションの有効性を高めるために,スキル適応型模倣学習フレームワークを提案する。
その結果、SAILはUIテストマイグレーションの有効性を大幅に改善し、149%の成功率が最先端のアプローチよりも高いことがわかった。
論文 参考訳(メタデータ) (2024-09-20T08:13:04Z) - LLM-based Abstraction and Concretization for GUI Test Migration [26.503512328876198]
GUIテストマイグレーションは、ターゲットアプリの特定の機能をテストするために、イベントとアサーションを備えたテストケースを生成することを目的としている。
本稿では,まず,対象機能に対するテストロジックを抽象化する新たなマイグレーションパラダイムを提案する。
このパラダイムに基づいてGUIテストケースを移行する最初のアプローチであるMACdroidを紹介します。
論文 参考訳(メタデータ) (2024-09-08T08:46:05Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI
Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。
機能認識型メモリプロンプト機構を導入する。
アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文 参考訳(メタデータ) (2023-10-24T12:30:26Z) - Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。
そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文 参考訳(メタデータ) (2023-05-16T13:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。