論文の概要: AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents
- arxiv url: http://arxiv.org/abs/2407.17490v1
- Date: Wed, 3 Jul 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-28 17:59:54.695679
- Title: AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents
- Title(参考訳): AMEX: モバイルGUIエージェント用のAndroidマルチアノテーションエクスポデータセット
- Authors: Yuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Peng Gao, Shuai Ren, Hongsheng Li,
- Abstract要約: 我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 50.39555842254652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents have drawn increasing attention mostly on their ability to perceive environments, understand tasks, and autonomously achieve goals. To advance research on AI agents in mobile scenarios, we introduce the Android Multi-annotation EXpo (AMEX), a comprehensive, large-scale dataset designed for generalist mobile GUI-control agents. Their capabilities of completing complex tasks by directly interacting with the graphical user interface (GUI) on mobile devices are trained and evaluated with the proposed dataset. AMEX comprises over 104K high-resolution screenshots from 110 popular mobile applications, which are annotated at multiple levels. Unlike existing mobile device-control datasets, e.g., MoTIF, AitW, etc., AMEX includes three levels of annotations: GUI interactive element grounding, GUI screen and element functionality descriptions, and complex natural language instructions, each averaging 13 steps with stepwise GUI-action chains. We develop this dataset from a more instructive and detailed perspective, complementing the general settings of existing datasets. Additionally, we develop a baseline model SPHINX Agent and compare its performance across state-of-the-art agents trained on other datasets. To facilitate further research, we open-source our dataset, models, and relevant evaluation tools. The project is available at https://yuxiangchai.github.io/AMEX/
- Abstract(参考訳): AIエージェントは、主に環境を知覚し、タスクを理解し、自律的に目標を達成する能力に注意を向けている。
モバイルシナリオにおけるAIエージェントの研究を進めるために,汎用的なモバイルGUI制御エージェント用に設計された包括的かつ大規模なデータセットであるAndroid Multi-Annotation EXpo(AMEX)を紹介した。
モバイルデバイス上のグラフィカルユーザインタフェース(GUI)と直接対話することで複雑なタスクを完了させる能力をトレーニングし、提案したデータセットで評価する。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
既存のモバイルデバイスコントロールデータセット、例えば、MoTIF、AitWなどとは異なり、AMEXには3つのレベルのアノテーションが含まれている。
我々は、既存のデータセットの一般的な設定を補完し、より教育的かつ詳細な視点からこのデータセットを開発する。
さらに、ベースラインモデルSPHINX Agentを開発し、その性能を、他のデータセットで訓練された最先端エージェント間で比較する。
さらなる研究を容易にするため、私たちはデータセット、モデル、関連する評価ツールをオープンソース化しました。
このプロジェクトはhttps://yuxiangchai.github.io/AMEX/で入手できる。
関連論文リスト
- AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。
具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。
提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - A3: Android Agent Arena for Mobile GUI Agents [46.73085454978007]
モバイルGUIエージェントは、モバイルデバイス上で自律的にタスクを実行するように設計されている。
Android Agent Arena (A3)は、現実の、開発中のタスクのパフォーマンスを評価するための、新しい評価プラットフォームである。
A3には、広く使われている21の一般サードパーティアプリと、一般的なユーザシナリオを表す201のタスクが含まれている。
論文 参考訳(メタデータ) (2025-01-02T09:03:56Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - MobileFlow: A Multimodal LLM For Mobile GUI Agent [4.7619361168442005]
本稿では,モバイルGUIエージェント用のマルチモーダルな大規模言語モデルであるMobileFlowを紹介する。
MobileFlowは約21億のパラメータを含み、新しいハイブリッドビジュアルエンコーダを備えている。
画像データを完全に解釈し、GUIインタラクションタスクのユーザ命令を理解する能力がある。
論文 参考訳(メタデータ) (2024-07-05T08:37:10Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - GUIDE: Graphical User Interface Data for Execution [0.0]
GUIDEは、MLLM(Multimodal Large Language Model)アプリケーションの開発に適した、新しいデータセットである。
私たちのデータセットは、Apollo(62.67%)、Gmail(.43%)、Calendar(22.92%)など、さまざまなWebサイトのさまざまなデータを含んでいる。
論文 参考訳(メタデータ) (2024-04-09T11:59:41Z) - Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文 参考訳(メタデータ) (2022-10-06T03:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。