論文の概要: Aria-UI: Visual Grounding for GUI Instructions
- arxiv url: http://arxiv.org/abs/2412.16256v1
- Date: Fri, 20 Dec 2024 07:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:57.447257
- Title: Aria-UI: Visual Grounding for GUI Instructions
- Title(参考訳): Aria-UI: GUIインストラクションのためのビジュアルグラウンド
- Authors: Yuhao Yang, Yue Wang, Dongxu Li, Ziyang Luo, Bei Chen, Chao Huang, Junnan Li,
- Abstract要約: Aria-UIはGUIグラウンディング用に特別に設計された大規模なマルチモーダルモデルである。
そこで本稿では,グラウンド化のための多種多様な高品質な命令サンプルを合成するスケーラブルなデータパイプラインを提案する。
Arias-UIは、オフラインおよびオンラインエージェントベンチマークにまたがって、最先端の新たな結果を設定する。
- 参考スコア(独自算出の注目度): 45.49613587013102
- License:
- Abstract: Digital agents for automating tasks across different platforms by directly manipulating the GUIs are increasingly important. For these agents, grounding from language instructions to target elements remains a significant challenge due to reliance on HTML or AXTree inputs. In this paper, we introduce Aria-UI, a large multimodal model specifically designed for GUI grounding. Aria-UI adopts a pure-vision approach, eschewing reliance on auxiliary inputs. To adapt to heterogeneous planning instructions, we propose a scalable data pipeline that synthesizes diverse and high-quality instruction samples for grounding. To handle dynamic contexts in task performing, Aria-UI incorporates textual and text-image interleaved action histories, enabling robust context-aware reasoning for grounding. Aria-UI sets new state-of-the-art results across offline and online agent benchmarks, outperforming both vision-only and AXTree-reliant baselines. We release all training data and model checkpoints to foster further research at https://ariaui.github.io.
- Abstract(参考訳): GUIを直接操作することで、さまざまなプラットフォームでタスクを自動化するデジタルエージェントがますます重要になっている。
これらのエージェントにとって、言語命令からターゲット要素への基底は、HTMLやAXTreeの入力に依存するため、依然として大きな課題である。
本稿では,GUIグラウンドティングに特化した大規模マルチモーダルモデルであるAria-UIを紹介する。
Aria-UIは純粋ビジョンのアプローチを採用し、補助入力に依存する。
不均一な計画手順に適応するために,多種多様な高品質な指導サンプルを合成するスケーラブルなデータパイプラインを提案する。
タスク実行における動的コンテキストを処理するために、Aria-UIはテキストとテキストイメージのインターリーブされたアクションヒストリーを取り入れている。
Aria-UIは、オフラインとオンラインのエージェントベンチマークで新しい最先端の結果を設定し、ビジョンのみとAXTree-Reliantベースラインの両方を上回っている。
すべてのトレーニングデータとモデルチェックポイントをリリースし、https://ariaui.github.io.comでさらなる研究を進めています。
関連論文リスト
- GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に知覚し,GUI上でのピクセルレベルの操作を直接行う,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。