論文の概要: Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI
Testing
- arxiv url: http://arxiv.org/abs/2311.08649v1
- Date: Wed, 15 Nov 2023 01:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:24:34.536555
- Title: Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI
Testing
- Title(参考訳): インテント駆動型モバイルGUIテストを実現する自律型大規模言語モデルエージェント
- Authors: Juyeon Yoon, Robert Feldt and Shin Yoo
- Abstract要約: そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。
これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。
DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端のGUIテスト技術では51%だった。
- 参考スコア(独自算出の注目度): 17.24045904273874
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: GUI testing checks if a software system behaves as expected when users
interact with its graphical interface, e.g., testing specific functionality or
validating relevant use case scenarios. Currently, deciding what to test at
this high level is a manual task since automated GUI testing tools target lower
level adequacy metrics such as structural code coverage or activity coverage.
We propose DroidAgent, an autonomous GUI testing agent for Android, for
semantic, intent-driven automation of GUI testing. It is based on Large
Language Models and support mechanisms such as long- and short-term memory.
Given an Android app, DroidAgent sets relevant task goals and subsequently
tries to achieve them by interacting with the app. Our empirical evaluation of
DroidAgent using 15 apps from the Themis benchmark shows that it can set up and
perform realistic tasks, with a higher level of autonomy. For example, when
testing a messaging app, DroidAgent created a second account and added a first
account as a friend, testing a realistic use case, without human intervention.
On average, DroidAgent achieved 61% activity coverage, compared to 51% for
current state-of-the-art GUI testing techniques. Further, manual analysis shows
that 317 out of the 374 autonomously created tasks are realistic and relevant
to app functionalities, and also that DroidAgent interacts deeply with the apps
and covers more features.
- Abstract(参考訳): GUIテストは、ユーザがグラフィカルインターフェース(例えば、特定の機能のテストや関連するユースケースシナリオの検証など)と対話するとき、ソフトウェアシステムが期待通りに振る舞うかどうかをチェックする。
自動GUIテストツールは、構造的コードカバレッジやアクティビティカバレッジといった低レベルなメトリクスをターゲットにしているため、現時点では、このハイレベルでテストするかを決めるのは手作業である。
そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。
これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。
Androidアプリがあると、DroidAgentは関連するタスク目標を設定し、その後、アプリと対話してそれを達成する。
Themisベンチマークによる15のアプリを用いたDroidAgentの実証評価では、より高度な自律性を備えた現実的なタスクの設定と実行が可能であることを示しています。
例えば、メッセージングアプリをテストするとき、DroidAgentは第2のアカウントを作成し、友達として最初のアカウントを追加し、人間の介入なしに現実的なユースケースをテストした。
平均して、DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端GUIテスト技術では51%だった。
さらに、マニュアル分析では、374の自律的なタスクのうち317は、アプリ機能に関連があり、DroidAgentはアプリと深く相互作用し、より多くの機能をカバーしている。
関連論文リスト
- AUITestAgent: Automatic Requirements Oriented GUI Function Testing [12.83932274541321]
本稿では,モバイルアプリ用の初の自動自然言語駆動GUIテストツールであるAUITestAgentを紹介する。
GUIインタラクションと機能検証の全プロセスを完全に自動化することができる。
カスタマイズされたベンチマークの実験では、AUITestAgentが生成されたGUIインタラクションの品質で既存のツールより優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-12T06:14:46Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [52.83132876539399]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果, GPT-4oの単剤は35。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [61.48043339441149]
GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。
履歴再サンプリングモジュールを用いたQwen-VLモデルの微調整により,マルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
論文 参考訳(メタデータ) (2024-06-12T17:44:26Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model [90.71963723884944]
テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
DiffAgentは、APIコールを介して、正確な選択を秒単位でスクリーニングするように設計されたエージェントである。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けることがわかった。
論文 参考訳(メタデータ) (2024-03-31T06:28:15Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI
Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。
機能認識型メモリプロンプト機構を導入する。
アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文 参考訳(メタデータ) (2023-10-24T12:30:26Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI
Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。
そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文 参考訳(メタデータ) (2023-05-16T13:46:52Z) - DroidBot-GPT: GPT-powered UI Automation for Android [11.980924738484994]
DroidBot-GPTは、GPTに似た大規模言語モデル(LLM)を使用して、Androidモバイルアプリケーションとのインタラクションを自動化するツールである。
DroidBot-GPTは、所望のタスクを自然言語で記述するので、タスクを完了させるためにアプリをナビゲートするアクションを自動的に生成して実行することができる。
論文 参考訳(メタデータ) (2023-04-14T11:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。