Fugu-MT 論文翻訳(概要): A3: Android Agent Arena for Mobile GUI Agents

論文の概要: A3: Android Agent Arena for Mobile GUI Agents

arxiv url: http://arxiv.org/abs/2501.01149v2
Date: Tue, 18 Feb 2025 08:24:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 15:46:50.335811
Title: A3: Android Agent Arena for Mobile GUI Agents
Title（参考訳）: A3: モバイルGUIエージェント用のAndroid Agent Arena
Authors: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guangyi Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li,
Abstract要約: モバイルGUIエージェントは、モバイルデバイス上で自律的にタスクを実行するように設計されている。 Android Agent Arena (A3)は、現実の、開発中のタスクのパフォーマンスを評価するための、新しい評価プラットフォームである。 A3には、広く使われている21の一般サードパーティアプリと、一般的なユーザシナリオを表す201のタスクが含まれている。
参考スコア（独自算出の注目度）: 46.73085454978007
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI agents have become increasingly prevalent in recent years, driven by significant advancements in the field of large language models (LLMs). Mobile GUI agents, a subset of AI agents, are designed to autonomously perform tasks on mobile devices. While numerous studies have introduced agents, datasets, and benchmarks to advance mobile GUI agent research, many existing datasets focus on static frame evaluations and fail to provide a comprehensive platform for assessing performance on real-world, in-the-wild tasks. To address this gap, we present Android Agent Arena (A3), a novel evaluation platform. Unlike existing in-the-wild systems, A3 offers: (1) meaningful and practical tasks, such as real-time online information retrieval and operational instructions; (2) a larger, more flexible action space, enabling compatibility with agents trained on any dataset; and (3) automated business-level LLM-based evaluation process. A3 includes 21 widely used general third-party apps and 201 tasks representative of common user scenarios, providing a robust foundation for evaluating mobile GUI agents in real-world situations and a new autonomous evaluation process for less human labor and coding expertise. The project is available at https://yuxiangchai.github.io/Android-Agent-Arena/.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の分野での大きな進歩によって,AIエージェントが急速に普及している。 AIエージェントのサブセットであるモバイルGUIエージェントは、モバイルデバイス上で自律的にタスクを実行するように設計されている。多くの研究がエージェント、データセット、ベンチマークを導入してモバイルGUIエージェントの研究を前進させているが、既存のデータセットの多くは静的フレーム評価に重点を置いており、現実の現場タスクのパフォーマンスを評価するための包括的なプラットフォームを提供していない。このギャップに対処するために、新しい評価プラットフォームであるAndroid Agent Arena (A3)を紹介する。既存のWildシステムとは異なり、A3は(1)リアルタイムオンライン情報検索や運用指示といった有意義で実践的なタスク、(2)より大きく柔軟なアクションスペース、(3)任意のデータセットでトレーニングされたエージェントとの互換性の実現、(3)ビジネスレベルのLCMベースの自動評価プロセスを提供する。 A3には、広く使われている21の一般サードパーティアプリと、一般的なユーザシナリオを表す201のタスクが含まれており、実際の状況下でモバイルGUIエージェントを評価するための堅牢な基盤と、人間の労働力やコーディングの専門知識を減らすための新たな自律的評価プロセスを提供する。このプロジェクトは、https://yuxiangchai.github.io/Android-Agent-Arena/.com/で入手できる。

関連論文リスト

SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications? [21.241252187534055]
SWE-Bench Mobileは、実運用iOSから派生した現実的なソフトウェアエンジニアリングタスクのコーディングエージェントを評価するためのベンチマークである。孤立した問題やバグ修正に焦点を当てた既存のベンチマークとは異なり、SWE-Bench Mobileは産業開発における完全な複雑さを捉えている。
論文参考訳（メタデータ） (2026-02-10T08:51:11Z)
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。 Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-04-01T15:40:27Z)
MobileA3gent: Training Mobile GUI Agents Using Decentralized Self-Sourced Data from Diverse Users [52.696186533146516]
MobileA3gentは、分散したセルフソースデータを使用してモバイルGUIエージェントをトレーニングするコラボレーティブフレームワークである。 MobileA3gentは従来のアプローチよりも1%のコストで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-05T08:26:17Z)
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。 Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-01-20T20:35:46Z)
Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文参考訳（メタデータ） (2024-11-04T11:50:58Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。 SPA-Benchは3つの重要なコントリビューションを提供している。英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文参考訳（メタデータ） (2024-06-12T13:14:50Z)
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文参考訳（メタデータ） (2024-06-03T05:50:00Z)
Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-25T14:56:32Z)
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。 Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文参考訳（メタデータ） (2024-01-29T13:46:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。