論文の概要: Benchmarking Mobile Device Control Agents across Diverse Configurations
- arxiv url: http://arxiv.org/abs/2404.16660v2
- Date: Sat, 19 Oct 2024 07:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:14:07.247724
- Title: Benchmarking Mobile Device Control Agents across Diverse Configurations
- Title(参考訳): 多様な構成におけるモバイルデバイス制御エージェントのベンチマーク
- Authors: Juyong Lee, Taywon Min, Minyong An, Dongyoon Hahm, Haeone Lee, Changyeon Kim, Kimin Lee,
- Abstract要約: B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 19.01954948183538
- License:
- Abstract: Mobile device control agents can largely enhance user interactions and productivity by automating daily tasks. However, despite growing interest in developing practical agents, the absence of a commonly adopted benchmark in this area makes it challenging to quantify scientific progress. In this work, we introduce B-MoCA: a novel benchmark with interactive environments for evaluating and developing mobile device control agents. To create a realistic benchmark, we develop B-MoCA based on the Android operating system and define 131 common daily tasks. Importantly, we incorporate a randomization feature that changes the configurations of mobile devices, including user interface layouts and language settings, to assess generalization performance. We benchmark diverse agents, including agents employing large language models (LLMs) or multi-modal LLMs as well as agents trained with imitation learning using human expert demonstrations. While these agents demonstrate proficiency in executing straightforward tasks, their poor performance on complex tasks highlights significant opportunities for future research to improve effectiveness. Our source code is publicly available at https://b-moca.github.io.
- Abstract(参考訳): モバイルデバイスコントロールエージェントは、日々のタスクを自動化することによって、ユーザのインタラクションと生産性を大幅に向上させることができる。
しかし、実際的なエージェントの開発への関心が高まっているにもかかわらず、この分野で一般的に採用されているベンチマークが欠落しているため、科学的進歩の定量化が難しい。
本研究では,モバイル機器制御エージェントの評価・開発のためのインタラクティブ環境を用いた新しいベンチマークであるB-MoCAを紹介する。
現実的なベンチマークを作成するために,Android OSをベースとしたB-MoCAを開発し,131の日常タスクを定義した。
重要なことは、ユーザインタフェースレイアウトや言語設定を含むモバイルデバイスの設定を変更するランダム化機能を導入し、一般化性能を評価することである。
我々は,大規模言語モデル(LLM)やマルチモーダルLLMを用いたエージェントや,人間の専門家による実演を用いた模倣学習を訓練したエージェントなど,多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクを実行する能力を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
ソースコードはhttps://b-moca.github.io.comで公開されています。
関連論文リスト
- Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
SPA-Benchは3つの重要なコントリビューションを提供している。 英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。
複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices [17.702068044185086]
本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。
我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。
実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
論文 参考訳(メタデータ) (2024-07-04T13:12:19Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。