論文の概要: ZeroGUI: Automating Online GUI Learning at Zero Human Cost
- arxiv url: http://arxiv.org/abs/2505.23762v1
- Date: Thu, 29 May 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.088086
- Title: ZeroGUI: Automating Online GUI Learning at Zero Human Cost
- Title(参考訳): ZeroGUI: 人的コストゼロでオンラインGUI学習を自動化する
- Authors: Chenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai,
- Abstract要約: 我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
- 参考スコア(独自算出の注目度): 75.21128388931945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large Vision-Language Models (VLMs) has propelled the development of pure-vision-based GUI Agents, capable of perceiving and operating Graphical User Interfaces (GUI) to autonomously fulfill user instructions. However, existing approaches usually adopt an offline learning framework, which faces two core limitations: (1) heavy reliance on high-quality manual annotations for element grounding and action supervision, and (2) limited adaptability to dynamic and interactive environments. To address these limitations, we propose ZeroGUI, a scalable, online learning framework for automating GUI Agent training at Zero human cost. Specifically, ZeroGUI integrates (i) VLM-based automatic task generation to produce diverse training goals from the current environment state, (ii) VLM-based automatic reward estimation to assess task success without hand-crafted evaluation functions, and (iii) two-stage online reinforcement learning to continuously interact with and learn from GUI environments. Experiments on two advanced GUI Agents (UI-TARS and Aguvis) demonstrate that ZeroGUI significantly boosts performance across OSWorld and AndroidLab environments. The code is available at https://github.com/OpenGVLab/ZeroGUI.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)の急速な進歩は、ユーザ指示を自律的に満たすためのグラフィカルユーザインタフェース(GUI)の知覚と操作が可能な純粋視覚ベースのGUIエージェントの開発を促している。
しかし、既存のアプローチでは、(1)要素の接地とアクションの監督のための高品質な手動アノテーションへの依存、(2)動的でインタラクティブな環境への適応性に制限のある2つの基本的制約に直面するオフライン学習フレームワークが採用されている。
これらの制約に対処するために,ZeroGUIを提案する。ZeroGUIは,Zeroの人的コストでGUIエージェントのトレーニングを自動化する,スケーラブルでオンラインな学習フレームワークである。
具体的にはZeroGUIが統合される
一 現環境状態から多様な訓練目標を作成するためのVLMベースの自動タスク生成
2手作り評価機能なしの作業成功評価のためのVLMに基づく自動報酬評価
3)GUI環境から継続的に対話し学習するための2段階オンライン強化学習。
2つの高度なGUIエージェント(UI-TARSとAguvis)の実験では、ZeroGUIがOSWorldとAndroidLab環境全体のパフォーマンスを大幅に向上することを示した。
コードはhttps://github.com/OpenGVLab/ZeroGUIで入手できる。
関連論文リスト
- UIShift: Enhancing VLM-based GUI Agents through Self-supervised Reinforcement Learning [4.18969040567543]
GUIエージェントのための効果的なビジョン言語モデル(VLM)のトレーニングは通常、大規模な注釈付きデータセットよりも教師付き微調整(SFT)に依存している。
本稿では,その遷移の原因となる動作を推定することにより,VLMがGUIトランジションペアから学習できるようにする,自己教師型逆動的タスクを提案する。
VLMベースのGUIエージェントを自己教師付き強化学習により拡張するフレームワークであるUI-shiftを提案する。
論文 参考訳(メタデータ) (2025-05-18T16:34:30Z) - WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation [20.11855701656702]
We present WorldGUI, a novel GUI benchmark that design GUI task with various initial state tosimulated real computer-user interaction。
また,GUIインタラクションの予測不能性と複雑性を効果的に管理する総合的なフレームワークであるGUI-Thinkerを提案する。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection [38.833925781308665]
MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-08T15:45:21Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。