論文の概要: AppAgent: Multimodal Agents as Smartphone Users
- arxiv url: http://arxiv.org/abs/2312.13771v2
- Date: Fri, 22 Dec 2023 02:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:35:53.859169
- Title: AppAgent: Multimodal Agents as Smartphone Users
- Title(参考訳): AppAgent: スマートフォンユーザとしてのマルチモーダルエージェント
- Authors: Chi Zhang and Zhao Yang and Jiaxuan Liu and Yucheng Han and Xin Chen
and Zebiao Huang and Bin Fu and Gang Yu
- Abstract要約: 我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。
エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。
エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
- 参考スコア(独自算出の注目度): 23.318925173980446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑なタスクを実行できるインテリジェントエージェントの開発につながっている。
本稿では,スマートフォンアプリケーションを操作するための新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
本フレームワークは,タッピングやスワイプなどのヒューマンライクなインタラクションを模倣した,簡易なアクションスペースによるスマートフォンアプリケーションの操作を可能にする。
この新しいアプローチは、システムバックエンドアクセスの必要性を回避し、様々なアプリに適用性を広げる。
エージェントの機能の中心は、その革新的な学習方法です。
エージェントは、自律的な探索または人間のデモを観察することで、ナビゲートと新しいアプリの使用を学習する。
このプロセスは、エージェントが異なるアプリケーション間で複雑なタスクを実行するために参照する知識ベースを生成する。
エージェントの実用性を実証するため,ソーシャルメディア,メール,地図,ショッピング,高度な画像編集ツールなど10種類のアプリケーションで50以上のタスクを広範囲にテストした。
以上の結果から,エージェントの多種多様なハイレベルタスクの処理能力が確認できた。
関連論文リスト
- Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
SPA-Benchは3つの重要なコントリビューションを提供している。 英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。
複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - AppBuddy: Learning to Accomplish Tasks in Mobile Apps via Reinforcement
Learning [19.990946219992992]
モバイルアプリのタスクを学習するためのRLベースのフレームワークを紹介した。
RLエージェントは、オンスクリーン要素の基本的な表現から派生した状態を備える。
我々は,効率的なRLトレーニング環境を実現するために,いくつかの工学的課題に対処するプラットフォームを開発する。
論文 参考訳(メタデータ) (2021-05-31T23:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。