論文の概要: GPA: Learning GUI Process Automation from Demonstrations
- arxiv url: http://arxiv.org/abs/2604.01676v1
- Date: Thu, 02 Apr 2026 06:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.562313
- Title: GPA: Learning GUI Process Automation from Demonstrations
- Title(参考訳): GPA: デモからGUIプロセスの自動化を学ぶ
- Authors: Zirui Zhao, Jun Hao Liew, Yan Yang, Wenzhuo Yang, Ziyang Luo, Doyen Sahoo, Silvio Savarese, Junnan Li,
- Abstract要約: GPAは軽量だが汎用的なビジョンベースロボットプロセス自動化(RPA)である
1つのデモだけで、高速で安定したプロセスのリプレイが可能になる。
従来のRPAの脆弱性と、現在のビジョン言語モデルに基づくGUIエージェントの非決定論的リスクに対処する。
- 参考スコア(独自算出の注目度): 59.82483926336919
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: GUI Process Automation (GPA) is a lightweight but general vision-based Robotic Process Automation (RPA), which enables fast and stable process replay with only a single demo. Addressing the fragility of traditional RPA and the non-deterministic risks of current vision language model-based GUI agents, GPA introduces three core benefits: (1) Robustness via Sequential Monte Carlo-based localization to handle rescaling and detection uncertainty; (2) Deterministic and Reliability safeguarded by readiness calibration; and (3) Privacy through fast, fully local execution. This approach delivers the adaptability, robustness, and security required for enterprise workflows. It can also be used as an MCP/CLI tool by other agents with coding capabilities so that the agent only reasons and orchestrates while GPA handles the GUI execution. We conducted a pilot experiment to compare GPA with Gemini 3 Pro (with CUA tools) and found that GPA achieves higher success rate with 10 times faster execution speed in finishing long-horizon GUI tasks.
- Abstract(参考訳): GUI Process Automation(GPA)は、軽量だが汎用的なビジョンベースのRobotic Process Automation(RPA)である。
従来のRPAの脆弱性と、現在のビジョン言語モデルベースのGUIエージェントの非決定論的リスクに対処するため、GPAは、(1)再スケーリングと検出の不確実性を処理するためのシークエンシャルモンテカルロによるロバストネス、(2)即応校正によって保護された決定論的および信頼性、(3)高速で完全に局所的な実行によるプライバシ、の3つの主要なメリットを導入している。
このアプローチは、エンタープライズワークフローに必要な適応性、堅牢性、セキュリティを提供します。
また、他のエージェントがコーディング機能を持つMPP/CLIツールとして使用することで、GPAがGUI実行を処理する間、エージェントは理由とオーケストレーションのみを行うことができる。
我々は,GPAとGemini 3 Pro(CUAツール)の比較実験を行い,長時間GUIタスクの10倍の高速化でGPAの成功率を達成した。
関連論文リスト
- Retrieval-augmented GUI Agents with Generative Guidelines [45.75975553907856]
本稿では,推論時にWebチュートリアルを利用する軽量なVLMであるRAG-GUIを提案する。
RAG-GUIは、まず教師付き微調整(SFT)によりウォームスタートし、さらに自己誘導型リジェクションサンプリング微調整(RSF)により改良される。
一貫してベースラインエージェントを上回り、2つのモデルサイズで他の推論ベースラインを2.6%から13.3%上回る。
論文 参考訳(メタデータ) (2025-09-29T02:04:20Z) - CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文 参考訳(メタデータ) (2025-08-05T21:33:36Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。
このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-04-22T17:52:42Z) - VeriSafe Agent: Safeguarding Mobile GUI Agent via Logic-based Action Verification [11.121359688304246]
本稿では,VSA (VeriSafe Agent) について紹介する。
VSAの中核となるのは、自然言語のユーザ命令を正式に検証可能な仕様に変換する、新しい自動形式化技術である。
我々は、広く使われている18のモバイルアプリで、300のユーザインストラクションでVSAのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2025-03-24T09:46:05Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。