論文の概要: From Off-Policy to On-Policy: Enhancing GUI Agents via Bi-level Expert-to-Policy Assimilation
- arxiv url: http://arxiv.org/abs/2601.05787v1
- Date: Fri, 09 Jan 2026 13:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.975291
- Title: From Off-Policy to On-Policy: Enhancing GUI Agents via Bi-level Expert-to-Policy Assimilation
- Title(参考訳): オフ・ポリティクスからオン・ポリティクス:2レベルエキスパート・ツー・ポリティクス・アシミレーションによるGUIエージェントの強化
- Authors: Zezhou Wang, Ziyun Zhang, Xiaoyi Zhang, Zhuzhong Qian, Yan Lu,
- Abstract要約: 視覚言語モデルはコンピュータ使用エージェントとしてますます多くデプロイされている。
エンドツーエンドのスクリーンショット・ツー・アクションポリシーはデプロイが容易だが、OSWorld-Verifiedのようなベンチマークでは遅れている。
BEPA(Bi-Level Expert-to-Policy Assimilation)を提案する。
- 参考スコア(独自算出の注目度): 18.202909345742437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models are increasingly deployed as computer-use agents (CUAs) that operate desktops and browsers. Top-performing CUAs are framework-based systems that decompose planning and execution, while end-to-end screenshot-to-action policies are easier to deploy but lag behind on benchmarks such as OSWorld-Verified. GUI datasets like OSWorld pose two bottlenecks: they expose only a few hundred interactive, verifiable tasks and environments, and expert trajectories must be gathered by interacting with these environments, making such data hard to scale. We therefore ask how reinforcement learning from verifiable rewards (RLVR) can best exploit a small pool of exist expert trajectories to train end-to-end policies. Naively mixing these off-policy traces into on-policy RLVR is brittle: even after format conversion, expert trajectories exhibit structural mismatch and distribution shift from the learner. We propose BEPA (Bi-Level Expert-to-Policy Assimilation), which turns static expert traces into policy-aligned guidance via self-rolled reachable trajectories under the base policy (LEVEL-1) and a per-task, dynamically updated cache used in RLVR (LEVEL-2). On OSWorld-Verified, BEPA improves UITARS1.5-7B success from 22.87% to 32.13% and raises a held-out split from 5.74% to 10.30%, with consistent gains on MMBench-GUI and Online-Mind2Web. Our code and data are available at: https://github.com/LEON-gittech/Verl_GUI.git
- Abstract(参考訳): 視覚言語モデルは、デスクトップやブラウザを操作するコンピュータ利用エージェント(CUA)としてますます多くデプロイされている。
最高パフォーマンスのCUAは、計画と実行を分解するフレームワークベースのシステムである。一方、エンドツーエンドのスクリーンショット・ツー・アクションポリシーは、デプロイが容易だが、OSWorld-Verifiedのようなベンチマークでは遅れている。
OSWorldのようなGUIデータセットは、数百のインタラクティブで検証可能なタスクと環境しか公開せず、専門家のトラジェクトリはこれらの環境とのインタラクションによって収集されなければならないため、そのようなデータはスケールするのが難しくなる。
したがって、検証可能な報酬(RLVR)からの強化学習が、エンド・ツー・エンドの政策を訓練するために、既存の専門家軌道の小さなプールを最大限に活用できるかを問う。
形式変換の後でも、専門家の軌跡は、学習者から構造的ミスマッチと分布シフトを示す。
本稿では,BEPA(Bi-Level Expert-to-Policy Assimilation)を提案する。これは,静的専門家のトレースを,ベースポリシー(LEVEL-1)とRLVR(LEVEL-2)で使用されるタスク毎の動的更新キャッシュ(LEVEL-2)に基づく,ポリシーに沿ったガイダンスに変換する。
OSWorld-Verifiedでは、BEPAはUITARS1.5-7Bの成功率を22.87%から32.13%に改善し、5.74%から10.30%に引き上げた。
私たちのコードとデータは、https://github.com/LEON-gittech/Verl_GUI.git.comで公開されています。
関連論文リスト
- GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z) - End-to-end RL Improves Dexterous Grasping Policies [64.8476328230578]
本研究は,画像に基づくエンドツーエンド学習のスケールアップ手法について,腕+手システムによる器用な把握について検討する。
我々は、深度と状態に基づく政策の両方をステレオRGBネットワークに訓練・蒸留し、深度蒸留がシミュレーションと現実の両方においてより良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2025-09-19T21:21:29Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [29.65579758217919]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。