論文の概要: Orcust: Stepwise-Feedback Reinforcement Learning for GUI Agent
- arxiv url: http://arxiv.org/abs/2509.17917v1
- Date: Mon, 22 Sep 2025 15:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.470296
- Title: Orcust: Stepwise-Feedback Reinforcement Learning for GUI Agent
- Title(参考訳): Orcust: GUIエージェントのためのステップワイズフィードバック強化学習
- Authors: Junyu Lu, Songxin Zhang, Zejian Xie, Zhuoyang Song, Jiaxing Zhang,
- Abstract要約: Orcust は Principle-Constrained Reward Modeling と Online VM-Grounded Trajectory Construction を統合したフレームワークである。
OVTCは機器化された仮想マシンをスピンアップして、構造化GUIインタラクション軌跡を自律的に収集する。
- 参考スコア(独自算出の注目度): 12.334063115362758
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in GUI agents have achieved remarkable grounding and action-prediction performance, yet existing models struggle with unreliable reward signals and limited online trajectory generation. In this paper, we introduce Orcust, a framework that integrates Principle-Constrained Reward Modeling (PCRM) and Online VM-Grounded Trajectory Construction (OVTC) to enhance reasoning reliability and data efficiency in interactive GUI tasks. We leverages environment-verifiable and LLM-derived principle to enforce interpretable reward signals that constrain long chain-of-thought reasoning and rule-based feedback. OVTC spins up instrumented virtual machines to autonomously collect structured GUI interaction trajectories with explicit procedural and structural objectives, enabling the training of a stepwise reward model that robustly captures human preferences and adheres to task-specific constraints. Extensive experiments on standard GUI benchmarks covering perceptual grounding, foundational operations, and end-to-end task execution reveal that Orcust achieves state-of-the-art performance, improving by 22.2\% on ScreenSpot and 23.9\% on ScreenSpot-Pro over the base model (i.e. Qwen2.5-VL-7B). The results demonstrate Orcust's effectiveness in enhancing the reasoning, adaptability and scalability of GUI agents across various environments and task complexities.
- Abstract(参考訳): GUIエージェントの最近の進歩は目覚ましい接地と行動予測性能を達成しているが、既存のモデルは信頼できない報酬信号と限定的なオンライン軌道生成に苦慮している。
本稿では,PCRM(Principle-Constrained Reward Modeling)とOVTC(Online VM-Grounded Trajectory Construction)を統合し,対話型GUIタスクにおける推論信頼性とデータ効率を向上させるフレームワークであるOrcustを紹介する。
我々は、環境検証とLLMに基づく原理を活用し、長い連鎖推論とルールに基づくフィードバックを制限する解釈可能な報酬信号を強制する。
OVTCは機器化された仮想マシンをスピンアップして、構造化されたGUIインタラクション軌跡を明示的な手続き的および構造的目的で自律的に収集し、人間の嗜好をしっかりと捉え、タスク固有の制約に固執するステップワイズ報酬モデルのトレーニングを可能にする。
知覚的グラウンディング、基本操作、エンドツーエンドタスク実行をカバーする標準GUIベンチマークの広範な実験により、Orcustは最先端のパフォーマンスを実現し、ScreenSpotでは22.2\%、ScreenSpot-Proでは23.9\%向上した(Qwen2.5-VL-7B)。
その結果、Orcustは様々な環境やタスクの複雑さにまたがるGUIエージェントの推論、適応性、拡張性を高める効果を示した。
関連論文リスト
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks [11.121687042616974]
Reinforcement Learning (RL) は動的対話型GUI環境においてエージェントのパフォーマンスを効果的に向上させる。
ほとんどのアプローチはタスク固有のニュアンスを1つの粗い報酬に分解し、エージェントに非効率なポリシー更新をもたらす均一な信号を残す。
我々は,グループ相対政策最適化(GRPO)に基づくカリキュラム学習フレームワークであるCRAFT-GUIを提案する。
論文 参考訳(メタデータ) (2025-08-15T09:55:02Z) - UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding [16.939058522414836]
トレーニングと推論の両方においてGUIエージェントを強化するUI-AGILEを導入する。
トレーニングのために,スーパービジョン・ファイン・チューニング(SFT)プロセスの一連の改善を提案する。
推測のために,高解像度ディスプレイのグラウンド化精度を劇的に向上させるために,選択による分解グラウンド化を提案する。
論文 参考訳(メタデータ) (2025-07-29T17:22:07Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.871793585090586]
GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:58:06Z) - Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。
このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-04-22T17:52:42Z) - InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners [41.22438639369124]
InfiGUI-R1は、Actor2Reasonerフレームワークを通じて開発されたMLLMベースのGUIエージェントである。
本研究では,教師モデルからMLLMへのクロスモーダル空間推論能力の伝達に空間推論蒸留を用いる。
Reinforcement Learning(強化学習)を用いて基礎的推論を熟考する。
論文 参考訳(メタデータ) (2025-04-19T09:25:55Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。