論文の概要: LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Automation Task Evaluation
- arxiv url: http://arxiv.org/abs/2404.16054v1
- Date: Fri, 12 Apr 2024 15:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-28 10:36:53.694652
- Title: LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Automation Task Evaluation
- Title(参考訳): LlamaTouch: モバイルUI自動化タスク評価のための忠実でスケーラブルなテストベッド
- Authors: Li Zhang, Shihe Wang, Xianqing Jia, Zhihan Zheng, Yunhe Yan, Longxi Gao, Yuanchun Li, Mengwei Xu,
- Abstract要約: 本稿では、デバイス上でのエージェント実行と、忠実でスケーラブルなエージェント評価のためのテストベッドであるLlamaTouchを提案する。
LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をすべてトラバースするかどうかのみを評価する、新しい評価アプローチを採用している。
LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。
- 参考スコア(独自算出の注目度): 8.998467488526327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergent large language/multimodal models facilitate the evolution of mobile agents, especially in the task of mobile UI automation. However, existing evaluation approaches, which rely on human validation or established datasets to compare agent-predicted actions with predefined ones, are unscalable and unfaithful. To overcome these limitations, this paper presents LlamaTouch, a testbed for on-device agent execution and faithful, scalable agent evaluation. By observing that the task execution process only transfers UI states, LlamaTouch employs a novel evaluation approach that only assesses whether an agent traverses all manually annotated, essential application/system states. LlamaTouch comprises three key techniques: (1) On-device task execution that enables mobile agents to interact with real mobile environments for task completion. (2) Fine-grained UI component annotation that merges pixel-level screenshots and textual screen hierarchies to explicitly identify and precisely annotate essential UI components with a rich set of designed annotation primitives. (3) A multi-level state matching algorithm that utilizes exact and fuzzy matching to accurately detect critical information in each screen with unpredictable UI layout/content dynamics. LlamaTouch currently incorporates four mobile agents and 495 UI automation tasks, encompassing both tasks in the widely-used datasets and our self-constructed ones for more diverse mobile applications. Evaluation results demonstrate the LlamaTouch's high faithfulness of evaluation in real environments and its better scalability than human validation. LlamaTouch also enables easy task annotation and integration of new mobile agents. Code and dataset are publicly available at https://github.com/LlamaTouch/LlamaTouch.
- Abstract(参考訳): 創発的な大規模言語/マルチモーダルモデルは、特にモバイルUI自動化のタスクにおいて、モバイルエージェントの進化を促進する。
しかしながら、エージェント予測されたアクションと事前に定義されたアクションを比較するために、人間の検証や確立されたデータセットに依存する既存の評価アプローチは、スケール不可能であり、不信である。
これらの制限を克服するために、デバイス上でのエージェント実行と忠実でスケーラブルなエージェント評価のためのテストベッドであるLlamaTouchを提案する。
タスク実行プロセスがUI状態のみを転送することを確認することで、LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をトラバースするかどうかのみを評価する、新しい評価アプローチを採用する。
1)モバイルエージェントがタスク完了のために実際のモバイル環境と対話できるオンデバイスタスク実行。
2) ピクセルレベルのスクリーンショットとテキスト画面階層をマージして、設計済みのアノテーションプリミティブの豊富なセットで必須のUIコンポーネントを明示的に識別し、正確にアノテートする、きめ細かいUIコンポーネントアノテーション。
(3) 精度とファジィマッチングを利用して予測不能なUIレイアウト/コンテンツダイナミックスで各画面の臨界情報を正確に検出するマルチレベル状態マッチングアルゴリズム。
現在、LlamaTouchには4つのモバイルエージェントと495のUI自動化タスクが含まれています。
評価結果は、LlamaTouchの実環境における評価の忠実度の高さと、人間の検証よりも優れたスケーラビリティを示す。
LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。
コードとデータセットはhttps://github.com/LlamaTouch/LlamaTouchで公開されている。
関連論文リスト
- Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI
Testing [17.24045904273874]
そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。
これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。
DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端のGUIテスト技術では51%だった。
論文 参考訳(メタデータ) (2023-11-15T01:59:40Z) - FedOpenHAR: Federated Multi-Task Transfer Learning for Sensor-Based
Human Activity Recognition [0.0]
本稿では,センサを用いた人間行動認識とデバイス位置識別の両課題に対して,フェデレート・トランスファー・ラーニングをマルチタスク方式で検討する。
OpenHARフレームワークは10個の小さなデータセットを含むモデルをトレーニングするために使用される。
タスク固有でパーソナライズされたフェデレーションモデルを用いたトランスファーラーニングとトレーニングにより、各クライアントを個別に訓練し、完全集中型アプローチよりも高い精度で学習した。
論文 参考訳(メタデータ) (2023-11-13T21:31:07Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文 参考訳(メタデータ) (2022-10-06T03:48:54Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Mobile Behavioral Biometrics for Passive Authentication [65.94403066225384]
本研究は, 単モーダルおよび多モーダルな行動的生体特性の比較分析を行った。
HuMIdbは、最大かつ最も包括的なモバイルユーザインタラクションデータベースである。
我々の実験では、最も識別可能な背景センサーは磁力計であり、タッチタスクではキーストロークで最良の結果が得られる。
論文 参考訳(メタデータ) (2022-03-14T17:05:59Z) - Exploring Visual Context for Weakly Supervised Person Search [155.46727990750227]
人探索は、歩行者の検出と人物の再識別を共同で扱う、困難なタスクとして最近登場した。
既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従っている。
本稿では,ボックスアノテーションのみを用いた弱教師付き人物検索について実験的に考察する。
論文 参考訳(メタデータ) (2021-06-19T14:47:13Z) - PyTouch: A Machine Learning Library for Touch Processing [68.32055581488557]
我々は、タッチセンシング信号の処理に特化した、最初の機械学習ライブラリであるPyTouchを紹介する。
PyTouchはモジュール式で使いやすく、最先端のタッチ処理機能をサービスとして提供するように設計されている。
タッチ検出,スリップ,オブジェクトポーズ推定などのタッチ処理タスクにおいて,触覚センサの実際のデータからPyTouchを評価する。
論文 参考訳(メタデータ) (2021-05-26T18:55:18Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。