Fugu-MT 論文翻訳(概要): Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI Testing

論文の概要: Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI Testing

arxiv url: http://arxiv.org/abs/2311.08649v1
Date: Wed, 15 Nov 2023 01:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 17:24:34.536555
Title: Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI Testing
Title（参考訳）: インテント駆動型モバイルGUIテストを実現する自律型大規模言語モデルエージェント
Authors: Juyeon Yoon, Robert Feldt and Shin Yoo
Abstract要約: そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。 DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端のGUIテスト技術では51%だった。
参考スコア（独自算出の注目度）: 17.24045904273874
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: GUI testing checks if a software system behaves as expected when users interact with its graphical interface, e.g., testing specific functionality or validating relevant use case scenarios. Currently, deciding what to test at this high level is a manual task since automated GUI testing tools target lower level adequacy metrics such as structural code coverage or activity coverage. We propose DroidAgent, an autonomous GUI testing agent for Android, for semantic, intent-driven automation of GUI testing. It is based on Large Language Models and support mechanisms such as long- and short-term memory. Given an Android app, DroidAgent sets relevant task goals and subsequently tries to achieve them by interacting with the app. Our empirical evaluation of DroidAgent using 15 apps from the Themis benchmark shows that it can set up and perform realistic tasks, with a higher level of autonomy. For example, when testing a messaging app, DroidAgent created a second account and added a first account as a friend, testing a realistic use case, without human intervention. On average, DroidAgent achieved 61% activity coverage, compared to 51% for current state-of-the-art GUI testing techniques. Further, manual analysis shows that 317 out of the 374 autonomously created tasks are realistic and relevant to app functionalities, and also that DroidAgent interacts deeply with the apps and covers more features.
Abstract（参考訳）: GUIテストは、ユーザがグラフィカルインターフェース(例えば、特定の機能のテストや関連するユースケースシナリオの検証など)と対話するとき、ソフトウェアシステムが期待通りに振る舞うかどうかをチェックする。自動GUIテストツールは、構造的コードカバレッジやアクティビティカバレッジといった低レベルなメトリクスをターゲットにしているため、現時点では、このハイレベルでテストするかを決めるのは手作業である。そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。 Androidアプリがあると、DroidAgentは関連するタスク目標を設定し、その後、アプリと対話してそれを達成する。 Themisベンチマークによる15のアプリを用いたDroidAgentの実証評価では、より高度な自律性を備えた現実的なタスクの設定と実行が可能であることを示しています。例えば、メッセージングアプリをテストするとき、DroidAgentは第2のアカウントを作成し、友達として最初のアカウントを追加し、人間の介入なしに現実的なユースケースをテストした。平均して、DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端GUIテスト技術では51%だった。さらに、マニュアル分析では、374の自律的なタスクのうち317は、アプリ機能に関連があり、DroidAgentはアプリと深く相互作用し、より多くの機能をカバーしている。

関連論文リスト

CovAgent: Overcoming the 30% Curse of Mobile Application Coverage with Agentic AI and Dynamic Instrumentation [10.80010959571188]
CovAgentは、AndroidアプリのUIテストを強化するためのエージェントAIを使った新しいアプローチである。我々のフレームワークは、最先端のLLMDroidよりもテストカバレッジが大幅に向上する。 CovAgentはクラス、メソッド、ラインカバレッジなど、他のメトリクスのベースラインよりも優れています。
論文参考訳（メタデータ） (2026-01-29T04:21:11Z)
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文参考訳（メタデータ） (2026-01-17T01:29:30Z)
PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records [67.68348568175718]
パーソナライズされたGUIエージェント(PersonalAlign)の階層的意図的アライメントに注目した。 PersonalAlignは、曖昧な指示で省略された好みを解決するために、長期的なユーザレコードを永続的なコンテキストとして活用する必要がある。 GPT-5, Qwen3-VL, UI-TARSなどのGUIエージェントをAndroidIntent上で評価する。
論文参考訳（メタデータ） (2026-01-14T17:12:48Z)
Computer-Use Agents as Judges for Generative User Interface [142.75272102498806]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。 CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文参考訳（メタデータ） (2025-11-19T16:00:02Z)
DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。 LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文参考訳（メタデータ） (2025-10-24T16:24:01Z)
GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation [70.3224918173672]
CowPilotは、自律的および人間とエージェントの協調的なWebナビゲーションをサポートするフレームワークである。エージェントが次のステップを提案することによって、人間が実行しなければならないステップの数を減らすと同時に、ユーザが一時停止、拒否、代替アクションを取ることができる。 CowPilotは、Webサイト間でのデータ収集とエージェント評価のための便利なツールとして機能する。
論文参考訳（メタデータ） (2025-01-28T00:56:53Z)
A3: Android Agent Arena for Mobile GUI Agents [46.73085454978007]
モバイルGUIエージェントは、モバイルデバイス上で自律的にタスクを実行するように設計されている。 Android Agent Arena (A3)は、現実の、開発中のタスクのパフォーマンスを評価するための、新しい評価プラットフォームである。 A3には、広く使われている21の一般サードパーティアプリと、一般的なユーザシナリオを表す201のタスクが含まれている。
論文参考訳（メタデータ） (2025-01-02T09:03:56Z)
GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文参考訳（メタデータ） (2024-12-24T13:41:47Z)
Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文参考訳（メタデータ） (2024-12-02T08:16:38Z)
AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文参考訳（メタデータ） (2024-10-28T17:05:10Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。 SPA-Benchは3つの重要なコントリビューションを提供している。英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。 ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文参考訳（メタデータ） (2024-10-09T14:49:02Z)
AUITestAgent: Automatic Requirements Oriented GUI Function Testing [12.83932274541321]
本稿では,モバイルアプリ用の初の自動自然言語駆動GUIテストツールであるAUITestAgentを紹介する。 GUIインタラクションと機能検証の全プロセスを完全に自動化することができる。カスタマイズされたベンチマークの実験では、AUITestAgentが生成されたGUIインタラクションの品質で既存のツールより優れていることが示されている。
論文参考訳（メタデータ） (2024-07-12T06:14:46Z)
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。 AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。 AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文参考訳（メタデータ） (2024-07-03T17:59:58Z)
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [61.48043339441149]
GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。履歴再サンプリングモジュールを用いたQwen-VLモデルの微調整により,マルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
論文参考訳（メタデータ） (2024-06-12T17:44:26Z)
AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。 AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文参考訳（メタデータ） (2024-03-26T17:54:15Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。機能認識型メモリプロンプト機構を導入する。アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文参考訳（メタデータ） (2023-10-24T12:30:26Z)
AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文参考訳（メタデータ） (2023-08-29T13:02:30Z)
Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。 Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文参考訳（メタデータ） (2023-05-16T13:46:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。