論文の概要: PeriGuru: A Peripheral Robotic Mobile App Operation Assistant based on GUI Image Understanding and Prompting with LLM
- arxiv url: http://arxiv.org/abs/2409.09354v1
- Date: Sat, 14 Sep 2024 07:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:09:38.734482
- Title: PeriGuru: A Peripheral Robotic Mobile App Operation Assistant based on GUI Image Understanding and Prompting with LLM
- Title(参考訳): PeriGuru:GUI画像理解とLLMによるプロンプトに基づく周辺ロボットモバイルアプリ操作アシスタント
- Authors: Kelin Fu, Yang Tian, Kaigui Bian,
- Abstract要約: PeriGuruは、GUIイメージ理解とLarge Language Model (LLM)によるプロンプトに基づく周辺ロボットモバイルアプリ操作アシスタントである。
PeriGuruはテストタスクセットで81.94%の成功率を達成した。
- 参考スコア(独自算出の注目度): 14.890725204531684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smartphones have significantly enhanced our daily learning, communication, and entertainment, becoming an essential component of modern life. However, certain populations, including the elderly and individuals with disabilities, encounter challenges in utilizing smartphones, thus necessitating mobile app operation assistants, a.k.a. mobile app agent. With considerations for privacy, permissions, and cross-platform compatibility issues, we endeavor to devise and develop PeriGuru in this work, a peripheral robotic mobile app operation assistant based on GUI image understanding and prompting with Large Language Model (LLM). PeriGuru leverages a suite of computer vision techniques to analyze GUI screenshot images and employs LLM to inform action decisions, which are then executed by robotic arms. PeriGuru achieves a success rate of 81.94% on the test task set, which surpasses by more than double the method without PeriGuru's GUI image interpreting and prompting design. Our code is available on https://github.com/Z2sJ4t/PeriGuru.
- Abstract(参考訳): スマートフォンは日々の学習、コミュニケーション、エンターテイメントを著しく強化し、現代生活の重要な要素となった。
しかし、高齢者や障害者を含む一部の人口は、スマートフォンの利用において困難に直面するため、モバイルアプリ操作アシスタント、すなわちモバイルアプリエージェントを必要としている。
プライバシやパーミッション,クロスプラットフォーム互換性の問題を考慮して,GUIイメージ理解とLarge Language Model(LLM)によるプロンプトに基づく周辺ロボットモバイルアプリ操作アシスタントであるPeriGuruの開発と開発に取り組んでいます。
PeriGuruは一連のコンピュータビジョン技術を利用してGUIのスクリーンショット画像を分析し、LLMを使ってアクション決定を通知し、ロボットアームによって実行される。
PeriGuruはテストタスクセットで81.94%の成功率を達成した。
私たちのコードはhttps://github.com/Z2sJ4t/PeriGuru.comで利用可能です。
関連論文リスト
- MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost
Whole-Body Teleoperation [59.21899709023333]
本研究では,バイマン的かつ全身制御を必要とするモバイル操作タスクを模倣するシステムを開発した。
Mobile ALOHAは、データ収集のための低コストで全身的な遠隔操作システムである。
共同トレーニングは成功率を最大90%向上させ、モバイルALOHAが自律的に複雑なモバイル操作タスクを完了できるようにする。
論文 参考訳(メタデータ) (2024-01-04T07:55:53Z) - AppAgent: Multimodal Agents as Smartphone Users [23.318925173980446]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。
エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。
エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文 参考訳(メタデータ) (2023-12-21T11:52:45Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI
Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。
機能認識型メモリプロンプト機構を導入する。
アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文 参考訳(メタデータ) (2023-10-24T12:30:26Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。