Fugu-MT 論文翻訳(概要): LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation

論文の概要: LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation

arxiv url: http://arxiv.org/abs/2404.16054v2
Date: Fri, 2 Aug 2024 13:49:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 18:03:40.616454
Title: LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation
Title（参考訳）: LlamaTouch: モバイルUIタスク自動化のための忠実でスケーラブルなテストベッド
Authors: Li Zhang, Shihe Wang, Xianqing Jia, Zhihan Zheng, Yunhe Yan, Longxi Gao, Yuanchun Li, Mengwei Xu,
Abstract要約: 本稿では、デバイス上でのモバイルUIタスク実行と、忠実でスケーラブルなタスク評価のためのテストベッドであるLlamaTouchを提案する。 LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をすべてトラバースするかどうかのみを評価する、新しい評価アプローチを採用している。 LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。
参考スコア（独自算出の注目度）: 8.998467488526327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergent large language/multimodal models facilitate the evolution of mobile agents, especially in mobile UI task automation. However, existing evaluation approaches, which rely on human validation or established datasets to compare agent-predicted actions with predefined action sequences, are unscalable and unfaithful. To overcome these limitations, this paper presents LlamaTouch, a testbed for on-device mobile UI task execution and faithful, scalable task evaluation. By observing that the task execution process only transfers UI states, LlamaTouch employs a novel evaluation approach that only assesses whether an agent traverses all manually annotated, essential application/system states. LlamaTouch comprises three key techniques: (1) On-device task execution that enables mobile agents to interact with realistic mobile environments for task execution. (2) Fine-grained UI component annotation that merges pixel-level screenshots and textual screen hierarchies to explicitly identify and precisely annotate essential UI components with a rich set of designed annotation primitives. (3) A multi-level application state matching algorithm that utilizes exact and fuzzy matching to accurately detect critical information in each screen, even with unpredictable UI layout/content dynamics. LlamaTouch currently incorporates four mobile agents and 496 tasks, encompassing both tasks in the widely-used datasets and our self-constructed ones to cover more diverse mobile applications. Evaluation results demonstrate LlamaTouch's high faithfulness of evaluation in real-world mobile environments and its better scalability than human validation. LlamaTouch also enables easy task annotation and integration of new mobile agents. Code and dataset are publicly available at https://github.com/LlamaTouch/LlamaTouch.
Abstract（参考訳）: 創発的な大規模言語/マルチモーダルモデルは、特にモバイルUIタスク自動化において、モバイルエージェントの進化を促進する。しかしながら、エージェント予測されたアクションと事前に定義されたアクションシーケンスを比較するために、人間の検証や確立されたデータセットに依存する既存の評価アプローチは、スケール不可能であり、不信である。これらの制限を克服するために、デバイス上でのモバイルUIタスク実行と忠実でスケーラブルなタスク評価のためのテストベッドであるLlamaTouchを提案する。タスク実行プロセスがUI状態のみを転送することを確認することで、LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をトラバースするかどうかのみを評価する、新しい評価アプローチを採用する。 1)モバイルエージェントがタスク実行のためにリアルなモバイル環境と対話できるオンデバイスタスク実行。 2) ピクセルレベルのスクリーンショットとテキスト画面階層をマージして、設計済みのアノテーションプリミティブの豊富なセットで必須のUIコンポーネントを明示的に識別し、正確にアノテートする、きめ細かいUIコンポーネントアノテーション。 (3) 予測不能なUIレイアウト/コンテントダイナミックスであっても、精度とファジィマッチングを利用して各画面の重要情報を正確に検出するマルチレベルアプリケーション状態マッチングアルゴリズム。現在、LlamaTouchには4つのモバイルエージェントと496のタスクが組み込まれています。評価結果は,LlamaTouchの実環境における評価の忠実度の高さと,人間の検証よりも優れたスケーラビリティを示す。 LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。コードとデータセットはhttps://github.com/LlamaTouch/LlamaTouchで公開されている。

関連論文リスト

MAPLE: A Mobile Agent with Persistent Finite State Machines for Structured Task Reasoning [46.18718721121415]
アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。 MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文参考訳（メタデータ） (2025-05-29T16:08:51Z)
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文参考訳（メタデータ） (2025-05-19T15:09:23Z)
Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。 Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文参考訳（メタデータ） (2025-05-17T07:58:34Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。 Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-01-20T20:35:46Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation [27.984521240600493]
大きな言語モデル(LLM)は、モバイルUIエージェントにエキサイティングな新しい進歩をもたらした。必要なモデルサイズを減らす方法の1つは、小さなドメイン固有のモデルをカスタマイズすることです。本稿では,UIタスクの自動化問題をコード生成問題に変換することを提案する。
論文参考訳（メタデータ） (2024-12-24T02:54:56Z)
AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文参考訳（メタデータ） (2024-12-12T18:59:27Z)
MobA: A Two-Level Agent System for Efficient Mobile Task Automation [22.844404052755294]
MobA(モブア)は、マルチモーダルな大規模言語モデルを利用した携帯電話エージェントである。高レベルグローバルエージェント(GA)は、ユーザコマンドの理解、履歴の追跡、計画タスクの責任を負う。低レベルのローカルエージェント(LA)は、GAからサブタスクとメモリによって誘導される関数呼び出しの形式で詳細なアクションを予測する。
論文参考訳（メタデータ） (2024-10-17T16:53:50Z)
AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文参考訳（メタデータ） (2024-08-05T06:31:39Z)
OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。 textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。 textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文参考訳（メタデータ） (2024-08-01T00:00:43Z)
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。 AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。 AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文参考訳（メタデータ） (2024-07-03T17:59:58Z)
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文参考訳（メタデータ） (2024-06-03T05:50:00Z)
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。 Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文参考訳（メタデータ） (2024-01-29T13:46:37Z)
Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-11-17T08:17:49Z)
End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文参考訳（メタデータ） (2022-10-26T10:19:37Z)
ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots [8.176933082548093]
ScreenQAは、質問応答による画面コンテンツ理解を促進するために設計された、新しいベンチマークデータセットである。 RICOデータセットに86kの質問応答ペアをアノテートすることにより,画面読解能力のベンチマークを行う。オープンウェイトモデルとプロプライエタリモデルの両方を用いて、ゼロショット、微調整、転送学習設定でデータセットの有効性を評価する。
論文参考訳（メタデータ） (2022-09-16T23:49:00Z)
Continual Object Detection via Prototypical Task Correlation Guided Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。 COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文参考訳（メタデータ） (2022-05-06T07:31:28Z)
ActionBert: Leveraging User Actions for Semantic Understanding of User Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文参考訳（メタデータ） (2020-12-22T20:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。