Fugu-MT 論文翻訳(概要): GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

論文の概要: GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

arxiv url: http://arxiv.org/abs/2311.07562v1
Date: Mon, 13 Nov 2023 18:53:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 12:56:38.950422
Title: GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
Title（参考訳）: ワンダーランドにおけるGPT-4V:ゼロショットスマートフォンGUIナビゲーションのための大規模マルチモーダルモデル
Authors: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang
Abstract要約: MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
参考スコア（独自算出の注目度）: 167.6232690168905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.
Abstract（参考訳）: スマートフォングラフィカルユーザインタフェース(GUI)ナビゲーションタスクのための GPT-4V ベースのエージェント MM-Navigator を提案する。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定する。以上の結果から,大規模マルチモーダルモデル,特にGPT-4Vは,高度な画面解釈,アクション推論,高精度なアクションローカライゼーション機能を通じてゼロショットGUIナビゲーションに優れていた。まず、収集したiOS画面データセット上でMM-Navigatorをベンチマークします。ヒューマンアセスメントによると、システムは、合理的なアクション記述を生成するのに91\%の精度を示し、ios上のシングルステップ命令の正しいアクションを実行するのに75\%の精度を示した。さらに,android画面ナビゲーションデータセットのサブセット上でモデルを評価した結果,従来のguiナビゲータをゼロショット方式で上回っている。このベンチマークと詳細な分析は,GUIナビゲーションタスクの今後の研究のための堅牢な基盤を構築することを目的としている。プロジェクトページはhttps://github.com/zzxslp/mm-navigatorにある。

関連論文リスト

UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。 Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文参考訳（メタデータ） (2024-12-12T15:29:36Z)
MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。 MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文参考訳（メタデータ） (2024-07-05T08:37:10Z)
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。 AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。 AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文参考訳（メタデータ） (2024-07-03T17:59:58Z)
E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion [34.85528852487379]
textbfE-ANTは中国初のGUIナビゲーションデータセットで、5000以上の小さなappsで4万の人間がトレースしている。各種MLLMをE-ANT上で評価し,実験結果を十分な精度で示す。
論文参考訳（メタデータ） (2024-06-20T12:22:05Z)
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [61.48043339441149]
GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。履歴再サンプリングモジュールを用いたQwen-VLモデルの微調整により,マルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
論文参考訳（メタデータ） (2024-06-12T17:44:26Z)
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。 NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文参考訳（メタデータ） (2023-05-26T14:41:06Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。ロボット間の効率的なデータ共有に必要な設計決定について分析する。我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文参考訳（メタデータ） (2022-10-07T07:26:41Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。