論文の概要: Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual
Perception
- arxiv url: http://arxiv.org/abs/2401.16158v1
- Date: Mon, 29 Jan 2024 13:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:39:41.964233
- Title: Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual
Perception
- Title(参考訳): Mobile-Agent:視覚認識による自律型マルチモーダルモバイルデバイスエージェント
- Authors: Junyang Wang and Haiyang Xu and Jiabo Ye and Ming Yan and Weizhou Shen
and Ji Zhang and Fei Huang and Jitao Sang
- Abstract要約: 自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
- 参考スコア(独自算出の注目度): 54.847886281834576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile device agent based on Multimodal Large Language Models (MLLM) is
becoming a popular application. In this paper, we introduce Mobile-Agent, an
autonomous multi-modal mobile device agent. Mobile-Agent first leverages visual
perception tools to accurately identify and locate both the visual and textual
elements within the app's front-end interface. Based on the perceived vision
context, it then autonomously plans and decomposes the complex operation task,
and navigates the mobile Apps through operations step by step. Different from
previous solutions that rely on XML files of Apps or mobile system metadata,
Mobile-Agent allows for greater adaptability across diverse mobile operating
environments in a vision-centric way, thereby eliminating the necessity for
system-specific customizations. To assess the performance of Mobile-Agent, we
introduced Mobile-Eval, a benchmark for evaluating mobile device operations.
Based on Mobile-Eval, we conducted a comprehensive evaluation of Mobile-Agent.
The experimental results indicate that Mobile-Agent achieved remarkable
accuracy and completion rates. Even with challenging instructions, such as
multi-app operations, Mobile-Agent can still complete the requirements. Code
and model will be open-sourced at https://github.com/X-PLUG/MobileAgent.
- Abstract(参考訳): マルチモーダル大規模言語モデル(mllm)に基づくモバイルデバイスエージェントが人気アプリケーションになりつつある。
本稿では,自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素を正確に識別し、特定する。
認識された視覚コンテキストに基づいて、複雑な操作タスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
アプリやモバイルシステムのメタデータのXMLファイルに依存する以前のソリューションとは違って、Mobile-Agentは視覚中心の方法で多様なモバイル環境にまたがる適応性を向上し、システム固有のカスタマイズの必要性を排除します。
モバイルエージェントの性能を評価するため,モバイルデバイス操作評価のベンチマークであるMobile-Evalを導入した。
Mobile-Evalに基づいて,Mobile-Agentの総合評価を行った。
実験の結果,Mobile-Agentは精度と完成率に優れていた。
マルチアプリ操作のような困難な命令であっても、Mobile-Agentは要件を完了することができる。
コードとモデルはhttps://github.com/x-plug/mobileagentでオープンソース化される。
関連論文リスト
- AgentScope: A Flexible yet Robust Multi-Agent Platform [66.61478569048477]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
堅牢で柔軟なマルチエージェントアプリケーションを目指して、AgentScopeはビルトインとカスタマイズ可能なフォールトトレランスメカニズムを提供する。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web
Tasks [96.9727427788202]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost
Whole-Body Teleoperation [59.21899709023333]
本研究では,バイマン的かつ全身制御を必要とするモバイル操作タスクを模倣するシステムを開発した。
Mobile ALOHAは、データ収集のための低コストで全身的な遠隔操作システムである。
共同トレーニングは成功率を最大90%向上させ、モバイルALOHAが自律的に複雑なモバイル操作タスクを完了できるようにする。
論文 参考訳(メタデータ) (2024-01-04T07:55:53Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - AppAgent: Multimodal Agents as Smartphone Users [23.318925173980446]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。
エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。
エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文 参考訳(メタデータ) (2023-12-21T11:52:45Z) - Mobile Foundation Model as Firmware [13.225478051091763]
sysはモバイルOSとハードウェアの協調管理アプローチである。
公開されているLarge Language Models (LLM) のキュレートされた選択と、動的データフローの促進を両立させる。
タスクの85%で精度を同等にし、ストレージとメモリのスケーラビリティを改善し、十分な推論速度を提供する。
論文 参考訳(メタデータ) (2023-08-28T07:21:26Z) - Error-Aware Imitation Learning from Teleoperation Data for Mobile
Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。
本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文 参考訳(メタデータ) (2021-12-09T23:54:59Z) - MLPerf Mobile Inference Benchmark [11.883357894242668]
erferf Mobileは、業界メンバーと学術研究者によって開発された、業界標準のオープンソースモバイルベンチマークである。
まず,コンピュータビジョンと自然言語処理のための"out-of-the-box"推論性能ベンチマークをモバイルデバイス上で提供するアプリを開発した。
論文 参考訳(メタデータ) (2020-12-03T23:29:03Z) - Traffic Agent Trajectory Prediction Using Social Convolution and
Attention Mechanism [57.68557165836806]
本稿では,自律走行車周辺における標的エージェントの軌道予測モデルを提案する。
対象エージェントの履歴トラジェクトリをアテンションマスクとしてエンコードし、ターゲットエージェントとその周辺エージェント間の対話関係をエンコードするソーシャルマップを構築する。
提案手法の有効性を検証するため,提案手法を公開データセット上の複数の手法と比較し,20%の誤差低減を実現した。
論文 参考訳(メタデータ) (2020-07-06T03:48:08Z) - Empirical Characterization of Mobility of Multi-Device Internet Users [1.1141688859736805]
我々は、大規模なキャンパスWiFiデータセットを用いて、複数のデバイスを複数の空間スケールで所有する現代のインターネットユーザのモビリティを実証分析した。
この結果から,ユーザに属する複数のデバイスのモビリティを独立して解析し,グループとしてモデル化する必要があることが示された。
分析の結果, 利用者の移動性は, 建物内や建物間など, 異なる空間スケールで異なる特徴を示すことがわかった。
論文 参考訳(メタデータ) (2020-03-18T23:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。