論文の概要: UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.11543v1
- Date: Mon, 15 Sep 2025 03:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.135092
- Title: UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
- Title(参考訳): UI-S1: 半オンライン強化学習によるGUI自動化の強化
- Authors: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang,
- Abstract要約: オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 78.86567400365392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical User Interface (GUI) agents have demonstrated remarkable progress in automating complex user interface interactions through reinforcement learning. However, current approaches face a fundamental dilemma: offline RL enables stable training on pre-collected trajectories, but struggles with multi-step task execution for lack of trajectory-level reward signals; online RL captures these signals through environment interaction, but suffers from sparse rewards and prohibitive deployment costs. To address it, we present Semi-online Reinforcement Learning, a novel paradigm that simulates online RL on offline trajectories. During each rollout process, we preserve the original model output within the multi-turn dialogue, where a Patch Module adaptively recovers the divergence between rollout and expert trajectories. To capture long-term training signals, Semi-online RL introduces discounted future returns into the reward computation and optimizes the policy with weighted step-level and episode-level advantages. We further introduce Semi-Online Performance (SOP), a metric that aligns better with true online performance, serving as a practical and effective proxy for real-world evaluation. Experiments show that ours Semi-online RL achieves SOTA performance among 7B models across four dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging the gap between offline training efficiency and online multi-turn reasoning. The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、強化学習を通じて複雑なユーザインタフェースインタラクションを自動化する際、顕著な進歩を見せている。
しかし、現在のアプローチは基本的なジレンマに直面している: オフラインのRLは、事前にコンパイルされた軌道上の安定したトレーニングを可能にするが、軌道レベルの報酬信号が欠如しているため、多段階のタスク実行に苦労する。
そこで本研究では,オンラインRLをオフライントラジェクトリ上でシミュレートする新パラダイムであるセミオンライン強化学習を提案する。
各ロールアウトプロセスにおいて、Patch Moduleがロールアウトとエキスパートの軌道の分岐を適応的に回復するマルチターン対話において、元のモデル出力を保持する。
長期トレーニング信号をキャプチャするために、セミオンラインRLは報酬計算にディスカウントされた将来のリターンを導入し、重み付けされたステップレベルとエピソードレベルのアドバンテージでポリシーを最適化する。
さらに、実世界の評価のための実用的で効果的なプロキシとして機能し、真のオンラインパフォーマンスと整合する指標であるSOP(Semi-Online Performance)についても紹介する。
実験によると、Semi-online RLは、4つの動的ベンチマークで7Bモデル間でSOTA性能を達成しており、ベースモデル(例えば、AndroidWorldでは+12.0%、AITWでは+23.8%)よりも大幅に向上し、オフライントレーニング効率とオンラインマルチターン推論のギャップを埋める大きな進歩を示している。
コードはhttps://github.com/X-PLUG/MobileAgent/tree/main/UI-S1で公開されている。
関連論文リスト
- MOORL: A Framework for Integrating Offline-Online Reinforcement Learning [6.7265073544042995]
オフラインおよびオンライン学習を統合するハイブリッドフレームワークであるMOORL(Meta Offline-Online Reinforcement Learning)を提案する。
提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。
計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
論文 参考訳(メタデータ) (2025-06-11T10:12:50Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。