論文の概要: MagicGUI-RMS: A Multi-Agent Reward Model System for Self-Evolving GUI Agents via Automated Feedback Reflux
- arxiv url: http://arxiv.org/abs/2601.13060v1
- Date: Mon, 19 Jan 2026 13:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.9198
- Title: MagicGUI-RMS: A Multi-Agent Reward Model System for Self-Evolving GUI Agents via Automated Feedback Reflux
- Title(参考訳): MagicGUI-RMS:自動フィードバックリフラックスによる自己進化型GUIエージェントのためのマルチエージェントリワードモデルシステム
- Authors: Zecheng Li, Zhihui Cao, Wenke Huang, Yudong Zhang, Keying Qi, Rui Wang, Zeyu Zheng, Jian Zhao, Hao Zhu, Hengxin Wu, Yuran Wang, Guitao Fan, Guokun Wu, Yicong Liu, Zhilin Gao, Haikun Xu, He Yang, Minqi Xiang, Xingyu Liu, Zuojian Wang,
- Abstract要約: 本稿では,適応軌道評価,修正フィードバック,自己進化学習機能を実現するマルチエージェント報酬モデルシステムMagicGUI-RMSを提案する。
大規模な報酬学習を支援するため、バランスの取れた多様な報酬データセットを自動的に生成する構造化データ構築パイプラインを設計する。
実験により、MagicGUI-RMSはタスクの正確性、振る舞いの堅牢性においてかなりの利益をもたらすことが示された。
- 参考スコア(独自算出の注目度): 37.49192877577783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical user interface (GUI) agents are rapidly progressing toward autonomous interaction and reliable task execution across diverse applications. However, two central challenges remain unresolved: automating the evaluation of agent trajectories and generating high-quality training data at scale to enable continual improvement. Existing approaches often depend on manual annotation or static rule-based verification, which restricts scalability and limits adaptability in dynamic environments. We present MagicGUI-RMS, a multi-agent reward model system that delivers adaptive trajectory evaluation, corrective feedback, and self-evolving learning capabilities. MagicGUI-RMS integrates a Domain-Specific Reward Model (DS-RM) with a General-Purpose Reward Model (GP-RM), enabling fine-grained action assessment and robust generalization across heterogeneous GUI tasks. To support reward learning at scale, we design a structured data construction pipeline that automatically produces balanced and diverse reward datasets, effectively reducing annotation costs while maintaining sample fidelity. During execution, the reward model system identifies erroneous actions, proposes refined alternatives, and continuously enhances agent behavior through an automated data-reflux mechanism. Extensive experiments demonstrate that MagicGUI-RMS yields substantial gains in task accuracy, behavioral robustness. These results establish MagicGUI-RMS as a principled and effective foundation for building self-improving GUI agents driven by reward-based adaptation.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、様々なアプリケーションにわたる自律的なインタラクションと信頼性の高いタスク実行に向けて急速に進歩している。
しかし、エージェント軌道の評価を自動化し、継続的な改善を可能にするため、大規模に高品質なトレーニングデータを生成するという2つの中心的な課題は未解決のままである。
既存のアプローチは、動的環境におけるスケーラビリティと適応性を制限する手動のアノテーションや静的なルールベースの検証に依存していることが多い。
本稿では,適応軌道評価,修正フィードバック,自己進化学習機能を実現するマルチエージェント報酬モデルシステムMagicGUI-RMSを提案する。
MagicGUI-RMSは、Domain-Specific Reward Model (DS-RM)とGeneral-Purpose Reward Model (GP-RM)を統合し、異種GUIタスク間のきめ細かいアクションアセスメントと堅牢な一般化を可能にする。
大規模な報酬学習を支援するために,バランスの取れた多様な報酬データセットを自動生成する構造化データ構築パイプラインを設計し,サンプルの忠実さを維持しつつ,アノテーションのコストを効果的に削減する。
実行中、報酬モデルシステムは誤動作を特定し、洗練された代替案を提案し、自動データ逆流機構を通じてエージェントの振る舞いを継続的に強化する。
大規模な実験により、MagicGUI-RMSはタスクの正確性、行動の堅牢性においてかなりの利益をもたらすことが示された。
これらの結果は、報酬ベースの適応によって駆動される自己改善GUIエージェントを構築するための原則的かつ効果的な基盤としてMagicGUI-RMSを確立する。
関連論文リスト
- ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.222064425122795]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。
ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (2025-12-31T16:51:14Z) - GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。
PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。
GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文 参考訳(メタデータ) (2025-09-27T11:42:36Z) - Orcust: Stepwise-Feedback Reinforcement Learning for GUI Agent [12.334063115362758]
Orcust は Principle-Constrained Reward Modeling と Online VM-Grounded Trajectory Construction を統合したフレームワークである。
OVTCは機器化された仮想マシンをスピンアップして、構造化GUIインタラクション軌跡を自律的に収集する。
論文 参考訳(メタデータ) (2025-09-22T15:40:31Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。