論文の概要: UIPro: Unleashing Superior Interaction Capability For GUI Agents
- arxiv url: http://arxiv.org/abs/2509.17328v1
- Date: Mon, 22 Sep 2025 03:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.219539
- Title: UIPro: Unleashing Superior Interaction Capability For GUI Agents
- Title(参考訳): UIPro:GUIエージェントの上位インタラクション機能公開
- Authors: Hongxin Li, Jingran Su, Jingfan Chen, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang,
- Abstract要約: 人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
視覚言語モデル(VLM)のマルチモーダル理解能力に基づくGUIエージェントの開発が試みられている。
本稿では,多プラットフォーム・マルチタスクGUIインタラクションデータを用いた新しい汎用GUIエージェントであるtextUIProを提案する。
- 参考スコア(独自算出の注目度): 33.77980648230746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building autonomous agents that perceive and operate graphical user interfaces (GUIs) like humans has long been a vision in the field of artificial intelligence. Central to these agents is the capability for GUI interaction, which involves GUI understanding and planning capabilities. Existing methods have tried developing GUI agents based on the multi-modal comprehension ability of vision-language models (VLMs). However, the limited scenario, insufficient size, and heterogeneous action spaces hinder the progress of building generalist GUI agents. To resolve these issues, this paper proposes \textbf{UIPro}, a novel generalist GUI agent trained with extensive multi-platform and multi-task GUI interaction data, coupled with a unified action space. We first curate a comprehensive dataset encompassing 20.6 million GUI understanding tasks to pre-train UIPro, granting it a strong GUI grounding capability, which is key to downstream GUI agent tasks. Subsequently, we establish a unified action space to harmonize heterogeneous GUI agent task datasets and produce a merged dataset to foster the action prediction ability of UIPro via continued fine-tuning. Experimental results demonstrate UIPro's superior performance across multiple GUI task benchmarks on various platforms, highlighting the effectiveness of our approach.
- Abstract(参考訳): 人間のようなグラフィカルユーザインタフェース(GUI)を知覚し、操作する自律エージェントの構築は、人工知能の分野における長年のビジョンである。
これらのエージェントの中心は、GUIの理解と計画機能を含むGUIインタラクションの能力である。
既存の手法では、視覚言語モデル(VLM)のマルチモーダル理解能力に基づいたGUIエージェントの開発が試みられている。
しかし、限られたシナリオ、不十分なサイズ、不均一なアクション空間は、ジェネラリストGUIエージェントの構築を妨げている。
そこで本研究では,多プラットフォーム・マルチタスクGUIインタラクションデータと統合されたアクション空間を組み合わせた,新しい汎用GUIエージェントである‘textbf{UIPro} を提案する。
まず、2060万のGUI理解タスクを含む包括的なデータセットをトレーニング前のUIProにキュレーションし、下流のGUIエージェントタスクのキーとなる強力なGUIグラウンド機能を提供します。
その後、異種GUIエージェントタスクデータセットを調和させ、統合されたデータセットを生成し、継続的な微調整を通じてUIProのアクション予測能力を向上する。
実験の結果、UIProは様々なプラットフォーム上で複数のGUIタスクベンチマークで優れたパフォーマンスを示し、アプローチの有効性を強調した。
関連論文リスト
- OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds [21.902626737678286]
マルチモーダルな言語モデルは、タスクを積極的に実行できるマルチモーダルエージェントへと進化している。
エージェント研究の多くはGUIやエンボディ化されたシナリオに焦点を合わせており、それらはそれぞれ2次元仮想世界や3次元現実世界と相互作用するエージェントに対応している。
構造とデータの観点から設計した高性能汎用エージェントOmniActorを提案する。
論文 参考訳(メタデータ) (2025-09-02T13:47:54Z) - SpiritSight Agent: Advanced GUI Agent with One Look [7.470506991479107]
理想的なグラフィカルユーザインタフェース(GUI)エージェントは、高い精度、低レイテンシ、互換性を実現することが期待されている。
最近のビジョンベースアプローチは、高度なビジョン言語モデル(VLM)を活用することで、将来性を示している。
本稿では,GUIナビゲーションタスクに優れた視覚ベースのエンドツーエンドGUIエージェントであるtextbfSpiritSight$を提案する。
論文 参考訳(メタデータ) (2025-03-05T05:30:22Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。