論文の概要: Aria-UI: Visual Grounding for GUI Instructions
- arxiv url: http://arxiv.org/abs/2412.16256v1
- Date: Fri, 20 Dec 2024 07:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:57.447257
- Title: Aria-UI: Visual Grounding for GUI Instructions
- Title(参考訳): Aria-UI: GUIインストラクションのためのビジュアルグラウンド
- Authors: Yuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li,
- Abstract要約: Aria-UIはGUIグラウンディング用に特別に設計された大規模なマルチモーダルモデルである。
そこで本稿では,グラウンド化のための多種多様な高品質な命令サンプルを合成するスケーラブルなデータパイプラインを提案する。
Arias-UIは、オフラインおよびオンラインエージェントベンチマークにまたがって、最先端の新たな結果を設定する。
- 参考スコア(独自算出の注目度): 45.49613587013102
- License:
- Abstract: Digital agents for automating tasks across different platforms by directly manipulating the GUIs are increasingly important. For these agents, grounding from language instructions to target elements remains a significant challenge due to reliance on HTML or AXTree inputs. In this paper, we introduce Aria-UI, a large multimodal model specifically designed for GUI grounding. Aria-UI adopts a pure-vision approach, eschewing reliance on auxiliary inputs. To adapt to heterogeneous planning instructions, we propose a scalable data pipeline that synthesizes diverse and high-quality instruction samples for grounding. To handle dynamic contexts in task performing, Aria-UI incorporates textual and text-image interleaved action histories, enabling robust context-aware reasoning for grounding. Aria-UI sets new state-of-the-art results across offline and online agent benchmarks, outperforming both vision-only and AXTree-reliant baselines. We release all training data and model checkpoints to foster further research at https://ariaui.github.io.
- Abstract(参考訳): GUIを直接操作することで、さまざまなプラットフォームでタスクを自動化するデジタルエージェントがますます重要になっている。
これらのエージェントにとって、言語命令からターゲット要素への基底は、HTMLやAXTreeの入力に依存するため、依然として大きな課題である。
本稿では,GUIグラウンドティングに特化した大規模マルチモーダルモデルであるAria-UIを紹介する。
Aria-UIは純粋ビジョンのアプローチを採用し、補助入力に依存する。
不均一な計画手順に適応するために,多種多様な高品質な指導サンプルを合成するスケーラブルなデータパイプラインを提案する。
タスク実行における動的コンテキストを処理するために、Aria-UIはテキストとテキストイメージのインターリーブされたアクションヒストリーを取り入れている。
Aria-UIは、オフラインとオンラインのエージェントベンチマークで新しい最先端の結果を設定し、ビジョンのみとAXTree-Reliantベースラインの両方を上回っている。
すべてのトレーニングデータとモデルチェックポイントをリリースし、https://ariaui.github.io.comでさらなる研究を進めています。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に知覚し,GUI上でのピクセルレベルの操作を直接行う,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - ScreenAI: A Vision-Language Model for UI and Infographics Understanding [4.914575630736291]
UIとインフォグラフィックの理解を専門とする視覚言語モデルであるScreenAIを紹介する。
この混合の核心は、モデルがUI要素のタイプと位置を識別しなければならない新しいスクリーンアノテーションタスクである。
これらのテキストアノテーションを使用して、画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。
論文 参考訳(メタデータ) (2024-02-07T06:42:33Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。