論文の概要: CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2605.25624v1
- Date: Mon, 25 May 2026 09:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.548071
- Title: CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents
- Title(参考訳): CUA-Gym:コンピュータ利用エージェントのための検証可能な学習環境と課題
- Authors: Bowen Wang, Dunjie Lu, Junli Wang, Tianyi Bai, Shixuan Liu, Zhipeng Zhang, Haiquan Wang, Hao Hu, Tianbao Xie, Shuai Bai, Dayiheng Liu, Que Shen, Junyang Lin, Tao Yu,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、数学、ツールユース、ソフトウェア工学といった分野において画期的な成果を上げている。
しかし、コンピュータ利用エージェント(CUA)への拡張は、決定論的報酬を伴うスケーラブルなトレーニングデータの不足によってボトルネックになっている。
本稿では,タスク命令,環境状態,報酬関数を共同生成するスケーラブルパイプラインCUA-Gymを提案する。
- 参考スコア(独自算出の注目度): 64.53357162213601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、数学、ツールユース、ソフトウェア工学などの分野において突破口をたどっているが、コンピュータ利用エージェント(CUA)への拡張は、決定論的報酬を伴うスケーラブルなトレーニングデータの不足によってボトルネックになっている。
このようなデータをCUAのために構築するには、一貫したタスク命令、実行環境、検証可能な報酬が必要である。
しかし、手作業によるベンチマークは高い報酬率を達成するが、アプリケーションが少なく、LLM-as-judgeベースのデータセットは広範囲にスケールするが、信頼性に欠ける。
本稿では,タスク命令,環境状態,報酬関数を共同生成するスケーラブルパイプラインCUA-Gymを提案する。
具体的には、ジェネレータが初期および黄金の環境状態を構築し、個別のディスクリミネータエージェントがタスク仕様から報酬関数を書き込む。
オーケストラのエージェントは、実行時に2つを反復的なラウンドで運転します。
生成されたタプルは、LCMの多数決とエージェントのロールアウトを組み合わせた最終フィルタをパスし、タスク毎の対向ループを超えた品質を保証する。
トレーニング環境の不足に対処するため,現実世界のソフトウェア利用分布を基盤とした多種多様なモックWebアプリケーションCUA-Gym-Hubを合成し,CUA RLVRデータの規模を劇的に拡大する。
このパイプラインを用いて,110の環境に根ざした32,112のRLVRトレーニングタプルのデータセットであるCUA-Gymを構築した。
CUA-GymでGSPOをトレーニングした結果、CUA-Gym-A3BとCUA-Gym-A17Bは、OSWorld-Verifiedで62.1%と72.6%を達成した。
同じチェックポイントが保留中のWebArenaベンチマークでも改善されている。
完全な合成パイプライン、データセット、CUA-Gym-Hub環境、モデルなどをオープンソースにします。
関連論文リスト
- ClawGym: A Scalable Framework for Building Effective Claw Agents [47.47444724291439]
ClawGymは、Clawスタイルのパーソナルエージェント開発の全ライフサイクルをサポートするスケーラブルなフレームワークである。
ClawGym-SynDataは、ペルソナ駆動のインテントとスキル接地操作から合成された13.5Kのフィルタリングタスクのデータセットである。
次に、ブラックボックスのロールアウト軌跡の教師付き微調整を通じて、ClawGym-Agentsと呼ばれる有能なClawスタイルのモデルのファミリーを訓練する。
さらに、自動フィルタリングとヒューマンLLMレビューを通じて200インスタンスのベンチマークであるClawGym-Benchを構築します。
論文 参考訳(メタデータ) (2026-04-29T17:12:22Z) - SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文 参考訳(メタデータ) (2026-02-02T17:20:30Z) - VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。
アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文 参考訳(メタデータ) (2026-01-21T19:29:00Z) - Plug-and-Play Benchmarking of Reinforcement Learning Algorithms for Large-Scale Flow Control [61.155940786140455]
強化学習(RL)は,アクティブフロー制御(AFC)において有望な結果を示した。
現在のAFCベンチマークは、外部計算流体力学(CFD)の解法に依存しており、完全には微分不可能であり、3Dとマルチエージェントのサポートが限られている。
AFCにおけるRLのための最初のスタンドアロンで完全に差別化可能なベンチマークスイートであるFluidGymを紹介する。
論文 参考訳(メタデータ) (2026-01-21T14:13:44Z) - Towards Agentic Self-Learning LLMs in Search Environment [36.158823302039195]
自己学習が人間の計算したデータセットや事前定義されたルールベースの報酬に頼ることなく、LSMベースのエージェントをスケールできるかどうかを検討する。
生成的リワードモデル(GRM)の報酬は、オープンドメイン学習のための厳密なルールベースの信号より優れている。
完全閉ループ・マルチロール強化学習フレームワークである textbfAgentic Self-Learning (ASL) を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:11:56Z) - OpenCUA: Open Foundations for Computer-Use Agents [74.61449905487565]
コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2025-08-12T17:52:32Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。