論文の概要: GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone
GUI Navigation
- arxiv url: http://arxiv.org/abs/2311.07562v1
- Date: Mon, 13 Nov 2023 18:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 12:56:38.950422
- Title: GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone
GUI Navigation
- Title(参考訳): ワンダーランドにおけるGPT-4V:ゼロショットスマートフォンGUIナビゲーションのための大規模マルチモーダルモデル
- Authors: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng
Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu,
Lijuan Wang
- Abstract要約: MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。
MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
- 参考スコア(独自算出の注目度): 167.6232690168905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical
user interface (GUI) navigation task. MM-Navigator can interact with a
smartphone screen as human users, and determine subsequent actions to fulfill
given instructions. Our findings demonstrate that large multimodal models
(LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its
advanced screen interpretation, action reasoning, and precise action
localization capabilities. We first benchmark MM-Navigator on our collected iOS
screen dataset. According to human assessments, the system exhibited a 91\%
accuracy rate in generating reasonable action descriptions and a 75\% accuracy
rate in executing the correct actions for single-step instructions on iOS.
Additionally, we evaluate the model on a subset of an Android screen navigation
dataset, where the model outperforms previous GUI navigators in a zero-shot
fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for
future research into the GUI navigation task. The project page is at
https://github.com/zzxslp/MM-Navigator.
- Abstract(参考訳): スマートフォングラフィカルユーザインタフェース(GUI)ナビゲーションタスクのための GPT-4V ベースのエージェント MM-Navigator を提案する。
MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定する。
以上の結果から,大規模マルチモーダルモデル,特にGPT-4Vは,高度な画面解釈,アクション推論,高精度なアクションローカライゼーション機能を通じてゼロショットGUIナビゲーションに優れていた。
まず、収集したiOS画面データセット上でMM-Navigatorをベンチマークします。
ヒューマンアセスメントによると、システムは、合理的なアクション記述を生成するのに91\%の精度を示し、ios上のシングルステップ命令の正しいアクションを実行するのに75\%の精度を示した。
さらに,android画面ナビゲーションデータセットのサブセット上でモデルを評価した結果,従来のguiナビゲータをゼロショット方式で上回っている。
このベンチマークと詳細な分析は,GUIナビゲーションタスクの今後の研究のための堅牢な基盤を構築することを目的としている。
プロジェクトページはhttps://github.com/zzxslp/mm-navigatorにある。
関連論文リスト
- NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - Improving Vision-and-Language Navigation by Generating Future-View Image
Semantics [96.8435716885159]
VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。
エージェントのドメイン内事前トレーニングにおける3つのプロキシタスクを提案する: Masked Panorama Modeling (MPM)、 Masked Trajectory Modeling (MTM)、Action Prediction with Image Generation (APIG)。
次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップのグラウンド真実ビューセマンティクスとの差を最小限に抑える。
論文 参考訳(メタデータ) (2023-04-11T00:36:02Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Unsupervised Visual Odometry and Action Integration for PointGoal
Navigation in Indoor Environment [14.363948775085534]
屋内環境におけるポイントゴールナビゲーションは、個人ロボットが特定の地点に向かうための基本的なタスクである。
GPS信号を使わずにPointGoalナビゲーションの精度を向上させるために、ビジュアル・オドメトリー(VO)を用い、教師なしで訓練された新しいアクション統合モジュール(AIM)を提案する。
実験により,提案システムは良好な結果が得られ,Gibsonデータセット上で部分的に教師付き学習アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-10-02T03:12:03Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Online No-regret Model-Based Meta RL for Personalized Navigation [37.82017324353145]
本稿では,現在のユーザの動態に迅速に適合するオンラインノリグレートモデルに基づくRL手法を提案する。
理論的解析により,本手法は非回帰アルゴリズムであり,無依存設定における収束率を提供する。
実世界のユーザデータを60時間以上にわたって分析した結果,衝突回数を60%以上削減できることがわかった。
論文 参考訳(メタデータ) (2022-04-05T01:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。