論文の概要: AppAgent: Multimodal Agents as Smartphone Users
- arxiv url: http://arxiv.org/abs/2312.13771v2
- Date: Fri, 22 Dec 2023 02:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:35:53.859169
- Title: AppAgent: Multimodal Agents as Smartphone Users
- Title(参考訳): AppAgent: スマートフォンユーザとしてのマルチモーダルエージェント
- Authors: Chi Zhang and Zhao Yang and Jiaxuan Liu and Yucheng Han and Xin Chen
and Zebiao Huang and Bin Fu and Gang Yu
- Abstract要約: 我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。
エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。
エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
- 参考スコア(独自算出の注目度): 23.318925173980446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑なタスクを実行できるインテリジェントエージェントの開発につながっている。
本稿では,スマートフォンアプリケーションを操作するための新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
本フレームワークは,タッピングやスワイプなどのヒューマンライクなインタラクションを模倣した,簡易なアクションスペースによるスマートフォンアプリケーションの操作を可能にする。
この新しいアプローチは、システムバックエンドアクセスの必要性を回避し、様々なアプリに適用性を広げる。
エージェントの機能の中心は、その革新的な学習方法です。
エージェントは、自律的な探索または人間のデモを観察することで、ナビゲートと新しいアプリの使用を学習する。
このプロセスは、エージェントが異なるアプリケーション間で複雑なタスクを実行するために参照する知識ベースを生成する。
エージェントの実用性を実証するため,ソーシャルメディア,メール,地図,ショッピング,高度な画像編集ツールなど10種類のアプリケーションで50以上のタスクを広範囲にテストした。
以上の結果から,エージェントの多種多様なハイレベルタスクの処理能力が確認できた。
関連論文リスト
- WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work
Tasks? [85.05288624713359]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく29のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.61478569048477]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
堅牢で柔軟なマルチエージェントアプリケーションを目指して、AgentScopeはビルトインとカスタマイズ可能なフォールトトレランスメカニズムを提供する。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - An Interactive Agent Foundation Model [50.50659114031731]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Exploring Large Language Model based Intelligent Agents: Definitions,
Methods, and Prospects [32.91556128291915]
本稿では, シングルエージェントおよびマルチエージェントシステムにおける知的エージェントの詳細な概要を提供するため, 現在の研究状況について調査する。
定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。
我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を思い浮かべて結論付ける。
論文 参考訳(メタデータ) (2024-01-07T09:08:24Z) - AutoAgents: A Framework for Automatic Agent Generation [30.6362151885679]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文 参考訳(メタデータ) (2023-09-29T14:46:30Z) - AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation [61.455159391215915]
AutoGenはオープンソースのフレームワークで、複数のエージェントを介してLLMアプリケーションを構築することができる。
AutoGenエージェントはカスタマイズ可能で、変換可能で、LLM、ヒューマンインプット、ツールの組み合わせを使った様々なモードで操作できる。
論文 参考訳(メタデータ) (2023-08-16T05:57:52Z) - AppBuddy: Learning to Accomplish Tasks in Mobile Apps via Reinforcement
Learning [19.990946219992992]
モバイルアプリのタスクを学習するためのRLベースのフレームワークを紹介した。
RLエージェントは、オンスクリーン要素の基本的な表現から派生した状態を備える。
我々は,効率的なRLトレーニング環境を実現するために,いくつかの工学的課題に対処するプラットフォームを開発する。
論文 参考訳(メタデータ) (2021-05-31T23:02:38Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。