論文の概要: GUI-Shepherd: Reliable Process Reward and Verification for Long-Sequence GUI Tasks
- arxiv url: http://arxiv.org/abs/2509.23738v1
- Date: Sun, 28 Sep 2025 08:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.413698
- Title: GUI-Shepherd: Reliable Process Reward and Verification for Long-Sequence GUI Tasks
- Title(参考訳): GUI-Shepherd:長期GUIタスクに対する信頼性の高いプロセスリワードと検証
- Authors: Cong Chen, Kaixiang Ji, Hao Zhong, Muzhi Zhu, Anzhou Li, Guo Gan, Ziyuan Huang, Cheng Zou, Jiajia Liu, Jingdong Chen, Hao Chen, Chunhua Shen,
- Abstract要約: 本稿では,エージェントを誘導するプロセス・リワード・モデルを提案する。
Gui-Shepherdは52ドル(約5,800円)のインタラクションからなるさまざまな大規模データセットでトレーニングされている。
GUIエージェントにおけるプロセス管理の体系的な研究を最初に行った。
- 参考スコア(独自算出の注目度): 75.50160982584943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents for long-sequence Graphical User Interface tasks are hindered by sparse rewards and the intractable credit assignment problem. To address these challenges, we introduce GUI-Shepherd, a Process Reward Model that provides dense, step-by-step feedback to guide agents. GUI-Shepherd is trained on a diverse large-scale data set of $52$k interactions that features human-annotated scores and GPT-4o generated rationales, enabling it to serve both as a reward provider for RL training and as a verifier for inference. As far as we know, we are the first to conduct a systematic study of process supervision in GUI agents, across diverse settings from online long-horizon tasks to offline single-step prediction. On the online AndroidWorld benchmark, GUI-Shepherd improves success rate by $7.7$ points via multi-turn online PPO, significantly outperforming Outcome Reward Model based competitors. When used as an inference verifier, it brings $5.1$ points improvements. The benefits generalize to the offline AndroidControl benchmark, with gains of $2.2$ points as a reward provider and $4.3$ points as a verifier. Collectively, our results establish that high-fidelity process supervision is critical for building more capable GUI agents and present a generalizable solution.
- Abstract(参考訳): 長期のグラフィカルユーザインタフェースタスクのための自律エージェントは、スパース報酬と難易度の高い信用代入問題によって妨げられる。
これらの課題に対処するために、エージェントをガイドするための密集したステップバイステップフィードバックを提供するProcess Reward ModelであるGUI-Shepherdを紹介します。
GUI-Shepherdは、人間の注釈付きスコアとGPT-4oが生成する合理性を特徴とし、RLトレーニングの報酬提供者および推論の検証者の両方として機能する、52$kのインタラクションからなる多様な大規模データセットに基づいて訓練されている。
私たちが知る限り、私たちは、オンラインの長期タスクからオフラインの単一ステップ予測まで、さまざまな設定において、GUIエージェントのプロセス監視を体系的に研究する最初の人です。
オンラインAndroidWorldベンチマークでは、GUI-ShepherdはマルチターンオンラインPPOによる成功率を7.7ドル改善し、アウトカム・リワード・モデル(Outcome Reward Model)ベースのライバルよりも大幅に上回っている。
推論検証器として使われると、5.1ドルポイントの改善がもたらされる。
この利点は、オフラインのAndroidControlベンチマークに一般化され、報酬提供者として22ドルポイント、検証者として4.3ドルポイントを得た。
この結果から,より優れたGUIエージェントを構築する上では,高忠実度プロセスの監督が不可欠であることが確認された。
関連論文リスト
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks [11.121687042616974]
Reinforcement Learning (RL) は動的対話型GUI環境においてエージェントのパフォーマンスを効果的に向上させる。
ほとんどのアプローチはタスク固有のニュアンスを1つの粗い報酬に分解し、エージェントに非効率なポリシー更新をもたらす均一な信号を残す。
我々は,グループ相対政策最適化(GRPO)に基づくカリキュラム学習フレームワークであるCRAFT-GUIを提案する。
論文 参考訳(メタデータ) (2025-08-15T09:55:02Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:58:06Z) - GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents [15.29032612749017]
最近のGUIエージェントは、R1-Zeroパラダイムを再現し、オンライン強化学習(RL)と、オブジェクトの接地前に明確な連鎖推論を結合する。
まず、入力設計、出力評価、ポリシー更新という、トレーニングパイプラインの3つの重要なコンポーネントについて、広範囲な分析実験を行った。
このGUI-G1-3Bは,Qwen2.5-VL-3B-Instructで17Kの公開サンプルをトレーニングし,ScreenSpotで90.3%,ScreenSpot-Proで37.1%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-21T17:59:09Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。