論文の概要: Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing
- arxiv url: http://arxiv.org/abs/2305.09434v1
- Date: Tue, 16 May 2023 13:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 08:34:40.205556
- Title: Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing
- Title(参考訳): ゼロショット型モバイル自動GUIテストのためのGPT-3のマッチング
- Authors: Zhe Liu, Chunyang Chen, Junjie Wang, Mengzhuo Chen, Boyu Wu, Xing Che,
Dandan Wang, Qing Wang
- Abstract要約: GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。
そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
- 参考スコア(独自算出の注目度): 23.460051600514806
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Mobile apps are indispensable for people's daily life, and automated GUI
(Graphical User Interface) testing is widely used for app quality assurance.
There is a growing interest in using learning-based techniques for automated
GUI testing which aims at generating human-like actions and interactions.
However, the limitations such as low testing coverage, weak generalization, and
heavy reliance on training data, make an urgent need for a more effective
approach to generate human-like actions to thoroughly test mobile apps.
Inspired by the success of the Large Language Model (LLM), e.g., GPT-3 and
ChatGPT, in natural language understanding and question answering, we formulate
the mobile GUI testing problem as a Q&A task. We propose GPTDroid, asking LLM
to chat with the mobile apps by passing the GUI page information to LLM to
elicit testing scripts, and executing them to keep passing the app feedback to
LLM, iterating the whole process. Within it, we extract the static context of
the GUI page and the dynamic context of the iterative testing process, design
prompts for inputting this information to LLM, and develop a neural matching
network to decode the LLM's output into actionable steps to execute the app. We
evaluate GPTDroid on 86 apps from Google Play, and its activity coverage is
71%, with 32% higher than the best baseline, and can detect 36% more bugs with
faster speed than the best baseline. GPTDroid also detects 48 new bugs on the
Google Play with 25 of them being confirmed/fixed. We further summarize the
capabilities of GPTDroid behind the superior performance, including semantic
text input, compound action, long meaningful test trace, and test case
prioritization.
- Abstract(参考訳): モバイルアプリは日々の生活に不可欠であり、GUI(Graphical User Interface)の自動テストはアプリの品質保証に広く利用されている。
ヒューマンライクなアクションやインタラクションを生成することを目的とした,GUI自動テストのための学習ベースのテクニックの使用に対する関心が高まっている。
しかしながら、低いテストカバレッジ、弱い一般化、トレーニングデータへの強い依存といった制限は、モバイルアプリを徹底的にテストするための人間的なアクションを生成するための、より効果的なアプローチを緊急に必要とします。
gpt-3やchatgptといった大規模言語モデル(llm)の成功に触発されて,自然言語理解と質問応答において,モバイルguiテスト問題をq&aタスクとして定式化した。
gptdroidを提案し,guiページ情報をllmに渡してテストスクリプトを省略し,アプリケーションのフィードバックをllmに渡すように実行し,プロセス全体を繰り返すことで,モバイルアプリとのチャットをllmに依頼する。
そこで我々は,GUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出し,この情報をLLMに入力する設計プロンプトを作成し,LLMの出力を動作可能なステップにデコードしてアプリケーションを実行するニューラルマッチングネットワークを開発する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
GPTDroidはまた、Google Playで48のバグを検出し、そのうち25が確認/修正されている。
さらに,semantic text input,complex action,long meaningful test trace,test case prioritizationなど,優れたパフォーマンスを実現する上でのgptdroidの機能についても概説する。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Large Language Models for Mobile GUI Text Input Generation: An Empirical Study [24.256184336154544]
大規模言語モデル(LLM)は優れたテキスト生成機能を示している。
本稿では,UIページに対するAndroidテキスト入力生成における9つの最先端LCMの有効性を広範囲に検討する。
論文 参考訳(メタデータ) (2024-04-13T09:56:50Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI
Testing [17.24045904273874]
そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。
これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。
DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端のGUIテスト技術では51%だった。
論文 参考訳(メタデータ) (2023-11-15T01:59:40Z) - Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI
Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。
機能認識型メモリプロンプト機構を導入する。
アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文 参考訳(メタデータ) (2023-10-24T12:30:26Z) - Testing the Limits: Unusual Text Inputs Generation for Mobile App Crash
Detection with Large Language Model [23.460051600514806]
本稿では,モバイルアプリのクラッシュ検出のための異常なテキスト入力を自動的に生成するInputBlasterを提案する。
異常な入力生成問題をテストジェネレータのセットを生成するタスクとして定式化し、それぞれが異常なテキスト入力のバッチを生成する。
36のテキスト入力ウィジェットで評価され、31の人気のあるAndroidアプリを含むキャッシュバグがあり、その結果、バグ検出率は78%で、最高のベースラインよりも136%高い。
論文 参考訳(メタデータ) (2023-10-24T09:10:51Z) - DroidBot-GPT: GPT-powered UI Automation for Android [11.980924738484994]
DroidBot-GPTは、GPTに似た大規模言語モデル(LLM)を使用して、Androidモバイルアプリケーションとのインタラクションを自動化するツールである。
DroidBot-GPTは、所望のタスクを自然言語で記述するので、タスクを完了させるためにアプリをナビゲートするアクションを自動的に生成して実行することができる。
論文 参考訳(メタデータ) (2023-04-14T11:31:56Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - MATE: Masked Autoencoders are Online 3D Test-Time Learners [63.3907730920114]
MATEは3Dデータ用に設計された最初のTTT(Test-Time-Training)手法である。
テストデータで発生する分散シフトに対して、ポイントクラウド分類のためにトレーニングされたディープネットワークを堅牢にする。
論文 参考訳(メタデータ) (2022-11-21T13:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。