論文の概要: GUIrilla: A Scalable Framework for Automated Desktop UI Exploration
- arxiv url: http://arxiv.org/abs/2510.16051v1
- Date: Thu, 16 Oct 2025 19:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.808327
- Title: GUIrilla: A Scalable Framework for Automated Desktop UI Exploration
- Title(参考訳): GUIrilla: 自動デスクトップUI探索のためのスケーラブルなフレームワーク
- Authors: Sofiya Garkot, Maksym Shamrai, Ivan Synytsia, Mariya Hirna,
- Abstract要約: GUIrillaは、GUI自動化における重要なデータ収集問題に対処するために、ネイティブアクセシビリティAPIを介してアプリケーションを探索する自動化フレームワークである。
我々は1,108個のアプリケーションにまたがって,27,171個の機能的なタスクからなる大規模データセットGUIrilla-Taskを構築し,リリースする。
GUIrilla-TaskにLLMベースのエージェントをチューニングすることで、下流UIタスクのパフォーマンスが大幅に向上し、ScreenSpot Proベンチマークでの合成ベースラインよりも97%少ないデータを使用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous agents capable of operating complex graphical user interfaces (GUIs) have the potential to transform desktop automation. While recent advances in large language models (LLMs) have significantly improved UI understanding, navigating full-window, multi-application desktop environments remains a major challenge. Data availability is limited by costly manual annotation, closed-source datasets and surface-level synthetic pipelines. We introduce GUIrilla, an automated scalable framework that systematically explores applications via native accessibility APIs to address the critical data collection challenge in GUI automation. Our framework focuses on macOS - an ecosystem with limited representation in current UI datasets - though many of its components are designed for broader cross-platform applicability. GUIrilla organizes discovered interface elements and crawler actions into hierarchical GUI graphs and employs specialized interaction handlers to achieve comprehensive application coverage. Using the application graphs from GUIrilla crawler, we construct and release GUIrilla-Task, a large-scale dataset of 27,171 functionally grounded tasks across 1,108 macOS applications, each annotated with full-desktop and window-level screenshots, accessibility metadata, and semantic action traces. Empirical results show that tuning LLM-based agents on GUIrilla-Task significantly improves performance on downstream UI tasks, outperforming synthetic baselines on the ScreenSpot Pro benchmark while using 97% less data. We also release macapptree, an open-source library for reproducible collection of structured accessibility metadata, along with the full GUIrilla-Task dataset, the manually verified GUIrilla-Gold benchmark, and the framework code to support open research in desktop autonomy.
- Abstract(参考訳): 複雑なグラフィカルユーザインタフェース(GUI)を操作できる自律エージェントは、デスクトップ自動化を変革する可能性がある。
大規模言語モデル(LLM)の最近の進歩はUIの理解を著しく改善しているが、完全なマルチアプリケーションデスクトップ環境をナビゲートすることは大きな課題である。
データ可用性は、高価な手作業によるアノテーション、クローズドソースデータセット、表面レベルの合成パイプラインによって制限される。
GUI自動化における重要なデータ収集問題に対処するため,ネイティブアクセシビリティAPIを通じてアプリケーションを体系的に探索する,スケーラブルな自動フレームワークであるGUIrillaを紹介した。
私たちのフレームワークは、現在のUIデータセットに制限のあるエコシステムであるmacOSに重点を置いています。
GUIrillaは、発見されたインターフェイス要素とクローラアクションを階層的なGUIグラフに整理し、包括的なアプリケーションカバレッジを達成するために特別なインタラクションハンドラを使用する。
GUIrilla-Taskは1,108のmacOSアプリケーションにまたがって機能的に基盤付けられたタスクで、それぞれにフルデスクトップとウィンドウレベルのスクリーンショット、アクセシビリティメタデータ、セマンティックアクショントレースが注釈付けされている。
GUIrilla-Task 上で LLM ベースのエージェントをチューニングすることで、ダウンストリーム UI タスクのパフォーマンスが大幅に向上し、ScreenSpot Pro ベンチマークでの合成ベースラインよりも 97% 少ないデータを使用しながらパフォーマンスが向上した。
また、構造化アクセシビリティメタデータの再現可能なコレクションのためのオープンソースライブラリであるmacapptreeと、完全なGUIrilla-Taskデータセット、手動で検証されたGUIrilla-Goldベンチマーク、デスクトップ自律性に関するオープンリサーチをサポートするフレームワークコードもリリースしています。
関連論文リスト
- GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning [11.909652592163896]
GUI-ReWalkは、現実的で多様なGUIトラジェクトリを合成するための多段階フレームワークである。
GUI-ReWalkは、ランダム性と構造に対するゴール認識推論を組み合わせることで、人間のコンピュータインタラクションの意図認識、適応性をよりよく反映したデータを生成する。
その結果、GUI-ReWalkは、多様な相互作用フロー、より高い軌道エントロピー、よりリアルなユーザインテントのカバレッジを向上できることを示した。
論文 参考訳(メタデータ) (2025-09-19T08:09:18Z) - Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - Screen2AX: Vision-Based Approach for Automatic macOS Accessibility Generation [0.0]
我々はScreen2AXを紹介した。Screen2AXは1つのスクリーンショットからリアルタイムでツリー構造されたアクセシビリティメタデータを自動生成する最初のフレームワークである。
本手法では,視覚言語およびオブジェクト検出モデルを用いてUI要素を階層的に検出,記述,整理し,Desktopのシステムレベルのアクセシビリティ構造を反映する。
我々はScreen2AXがネイティブアクセシビリティ表現よりも2.2倍の性能向上を実現し、ScreenSpotベンチマークの最先端のOmni V2システムを上回ることを実証した。
論文 参考訳(メタデータ) (2025-07-22T15:38:12Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。