論文の概要: GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
- arxiv url: http://arxiv.org/abs/2406.08451v1
- Date: Wed, 12 Jun 2024 17:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:37:29.038140
- Title: GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
- Title(参考訳): GUI Odyssey: モバイルデバイス上でのクロスプラットフォームGUIナビゲーションのための総合データセット
- Authors: Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo,
- Abstract要約: GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。
履歴再サンプリングモジュールを用いたQwen-VLモデルの微調整により,マルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
- 参考スコア(独自算出の注目度): 61.48043339441149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smartphone users often navigate across multiple applications (apps) to complete tasks such as sharing content between social media platforms. Autonomous Graphical User Interface (GUI) navigation agents can enhance user experience in communication, entertainment, and productivity by streamlining workflows and reducing manual intervention. However, prior GUI agents often trained with datasets comprising simple tasks that can be completed within a single app, leading to poor performance in cross-app navigation. To address this problem, we introduce GUI Odyssey, a comprehensive dataset for training and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735 episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps, and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a history resampling module. Extensive experiments demonstrate OdysseyAgent's superior accuracy compared to existing models. For instance, OdysseyAgent surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\% in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average. The dataset and code will be released in \url{https://github.com/OpenGVLab/GUI-Odyssey}.
- Abstract(参考訳): スマートフォンユーザーは、ソーシャルメディアプラットフォーム間でコンテンツを共有するなどのタスクを完了するために、複数のアプリケーション(アプリ)をナビゲートすることが多い。
自律的なグラフィカルユーザインタフェース(GUI)ナビゲーションエージェントは、ワークフローの合理化と手作業による介入の削減によって、コミュニケーション、エンターテイメント、生産性のユーザエクスペリエンスを向上させることができる。
しかしながら、以前のGUIエージェントは、単一のアプリ内で完了可能な単純なタスクからなるデータセットでトレーニングされることが多く、アプリ間ナビゲーションのパフォーマンスが低下する。
この問題に対処するために、アプリケーション間ナビゲーションエージェントのトレーニングと評価のための包括的なデータセットであるGUI Odysseyを紹介した。
GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。
GUI Odysseyを活用したマルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
大規模な実験は、OdysseyAgentの既存のモデルと比較して精度が優れていることを示した。
例えば、OdysseyAgentは細調整されたQwen-VLとゼロショットのGPT-4Vを1.44\%、55.49\%のドメイン内精度、2.29\%、48.14\%のドメイン外精度で上回っている。
データセットとコードは \url{https://github.com/OpenGVLab/GUI-Odyssey} でリリースされる。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - CogAgent: A Visual Language Model for GUI Agents [61.26491779502794]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。
低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。
CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技術の現状を達成している。
論文 参考訳(メタデータ) (2023-12-14T13:20:57Z) - Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI
Testing [17.24045904273874]
そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。
これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。
DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端のGUIテスト技術では51%だった。
論文 参考訳(メタデータ) (2023-11-15T01:59:40Z) - GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone
GUI Navigation [167.6232690168905]
MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。
MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
論文 参考訳(メタデータ) (2023-11-13T18:53:37Z) - NiCro: Purely Vision-based, Non-intrusive Cross-Device and
Cross-Platform GUI Testing [19.462053492572142]
我々は,非侵入型クロスデバイス・クロスプラットフォームシステムNiCroを提案する。
NiCroは最先端のGUIウィジェット検出器を使用してGUIイメージからウィジェットを検出し、さまざまなデバイスにまたがるウィジェットにマッチする一連の包括的な情報を分析する。
システムレベルでは、NiCroは仮想デバイスファームとロボットアームシステムと対話して、非侵襲的にクロスデバイスでクロスプラットフォームなテストを実行することができる。
論文 参考訳(メタデータ) (2023-05-24T01:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。