論文の概要: Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
- arxiv url: http://arxiv.org/abs/2506.04614v1
- Date: Thu, 05 Jun 2025 04:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.52602
- Title: Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
- Title(参考訳): You Leap: GUI自動化における術前エラー診断のためのGUI-Critic-R1モデル
- Authors: Yuyang Wanyan, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Jiabo Ye, Yutong Kou, Ming Yan, Fei Huang, Xiaoshan Yang, Weiming Dong, Changsheng Xu,
- Abstract要約: 実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
- 参考スコア(独自算出の注目度): 83.92224427735859
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, Multimodal Large Language Models (MLLMs) have been extensively utilized for multimodal reasoning tasks, including Graphical User Interface (GUI) automation. Unlike general offline multimodal tasks, GUI automation is executed in online interactive environments, necessitating step-by-step decision-making based on real-time status of the environment. This task has a lower tolerance for decision-making errors at each step, as any mistakes may cumulatively disrupt the process and potentially lead to irreversible outcomes like deletions or payments. To address these issues, we introduce a pre-operative critic mechanism that provides effective feedback prior to the actual execution, by reasoning about the potential outcome and correctness of actions. Specifically, we propose a Suggestion-aware Gradient Relative Policy Optimization (S-GRPO) strategy to construct our pre-operative critic model GUI-Critic-R1, incorporating a novel suggestion reward to enhance the reliability of the model's feedback. Furthermore, we develop a reasoning-bootstrapping based data collection pipeline to create a GUI-Critic-Train and a GUI-Critic-Test, filling existing gaps in GUI critic data. Static experiments on the GUI-Critic-Test across both mobile and web domains reveal that our GUI-Critic-R1 offers significant advantages in critic accuracy compared to current MLLMs. Dynamic evaluation on GUI automation benchmark further highlights the effectiveness and superiority of our model, as evidenced by improved success rates and operational efficiency.
- Abstract(参考訳): 近年,多モーダル言語モデル (MLLM) はグラフィカルユーザインタフェース (GUI) の自動化など,多モーダル推論タスクに広く利用されている。
一般的なオフラインのマルチモーダルタスクとは異なり、GUI自動化はオンラインのインタラクティブ環境で実行される。
このタスクは、プロセスが累積的に破壊され、削除や支払いといった不可逆的な結果につながる可能性があるため、各ステップでの意思決定エラーに対する耐性が低い。
これらの課題に対処するために,本研究では,行動の潜在的な結果と正しさを推論して,実際の実行前に効果的なフィードバックを提供する,術前の批判機構を導入する。
具体的には,Suggestion-Aware Gradient Relative Policy Optimization (S-GRPO) 戦略を提案する。
さらに,GUI批判データに既存のギャップを埋めるGUI批判トレインとGUI批判テストを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
モバイルおよびWebドメインにわたるGUI-Critic-Testの静的実験により、我々のGUI-Critic-R1は、現在のMLLMと比較して、批評家の精度において大きな利点があることが明らかになった。
GUI自動化ベンチマークの動的評価は、成功率と運用効率の改善によって証明されたモデルの有効性と優位性をさらに強調する。
関連論文リスト
- AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation [20.11855701656702]
We present WorldGUI, a novel GUI benchmark that design GUI task with various initial state tosimulated real computer-user interaction。
また,GUIインタラクションの予測不能性と複雑性を効果的に管理する総合的なフレームワークであるGUI-Thinkerを提案する。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。