論文の概要: AUTO-Explorer: Automated Data Collection for GUI Agent
- arxiv url: http://arxiv.org/abs/2511.06417v1
- Date: Sun, 09 Nov 2025 15:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.931843
- Title: AUTO-Explorer: Automated Data Collection for GUI Agent
- Title(参考訳): AUTO-Explorer:GUIエージェントのための自動データ収集
- Authors: Xiangwu Guo, Difei Gao, Mike Zheng Shou,
- Abstract要約: 本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。
それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。
収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
- 参考スコア(独自算出の注目度): 58.58097564914626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in GUI agents have significantly expanded their ability to interpret natural language commands to manage software interfaces. However, acquiring GUI data remains a significant challenge. Existing methods often involve designing automated agents that browse URLs from the Common Crawl, using webpage HTML to collect screenshots and corresponding annotations, including the names and bounding boxes of UI elements. However, this method is difficult to apply to desktop software or some newly launched websites not included in the Common Crawl. While we expect the model to possess strong generalization capabilities to handle this, it is still crucial for personalized scenarios that require rapid and perfect adaptation to new software or websites. To address this, we propose an automated data collection method with minimal annotation costs, named Auto-Explorer. It incorporates a simple yet effective exploration mechanism that autonomously parses and explores GUI environments, gathering data efficiently. Additionally, to assess the quality of exploration, we have developed the UIXplore benchmark. This benchmark creates environments for explorer agents to discover and save software states. Using the data gathered, we fine-tune a multimodal large language model (MLLM) and establish a GUI element grounding testing set to evaluate the effectiveness of the exploration strategies. Our experiments demonstrate the superior performance of Auto-Explorer, showing that our method can quickly enhance the capabilities of an MLLM in explored software.
- Abstract(参考訳): GUIエージェントの最近の進歩は、ソフトウェアインターフェースを管理する自然言語コマンドを解釈する能力を大幅に拡張した。
しかし、GUIデータの取得は依然として大きな課題である。
既存のメソッドは、しばしばCommon CrawlからURLを閲覧する自動エージェントを設計し、WebページHTMLを使用してスクリーンショットやUI要素の名前やバウンディングボックスを含む対応するアノテーションを収集する。
しかし、この手法はデスクトップソフトウェアやCommon Crawlに含まれていない新しいウェブサイトに適用することは困難である。
このモデルには、これを扱うための強力な一般化機能があることを期待していますが、新しいソフトウェアやウェブサイトに迅速かつ完璧な適応を必要とするパーソナライズされたシナリオには、依然として重要です。
そこで本研究では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。
これは、GUI環境を自律的に解析し、探索し、効率的にデータを収集する、シンプルで効果的な探索メカニズムを組み込んでいる。
さらに,探索の質を評価するため,UIXploreベンチマークを開発した。
このベンチマークは、エクスプローラーエージェントがソフトウェア状態を発見して保存するための環境を作成する。
収集したデータを用いて,マルチモーダルな大規模言語モデル(MLLM)を微調整し,探索手法の有効性を評価するためのGUI要素基盤試験セットを確立する。
実験では,Auto-Explorerの優れた性能を実証し,探索ソフトウェアにおけるMLLMの性能を迅速に向上できることを示す。
関連論文リスト
- GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.762798168494726]
GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。
提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-08-05T10:17:38Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - Leveraging Large Vision Language Model For Better Automatic Web GUI Testing [7.480576630392405]
本稿では,最初のLVLM駆動のエンドツーエンドWebテスト技術であるVETLを提案する。
LVLMのシーン理解機能により、VETLはローカルコンテキストに焦点を当てた有効な意味のあるテキスト入力を生成することができる。
関連GUI要素の選択は視覚的質問応答問題として定式化され、LVLMは入力ボックスと関連する要素の間の論理的接続をキャプチャする。
論文 参考訳(メタデータ) (2024-10-16T01:37:58Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。
AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。
オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。
環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。