論文の概要: EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
- arxiv url: http://arxiv.org/abs/2601.15876v1
- Date: Thu, 22 Jan 2026 11:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.58744
- Title: EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
- Title(参考訳): EvoCUA: スケーラブルな合成経験から学ぶコンピュータ利用エージェントの進化
- Authors: Taofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han, Haozhe Wang, Jianing Wang, Xiaocheng Zhang, Xin Yang, Dengchang Zhao, Jinrui Ding, Xiandi Ma, Yuchen Xie, Peng Pei, Xunliang Cai, Xipeng Qiu,
- Abstract要約: 本稿では,ネイティブコンピュータ利用エージェントモデルであるEvoCUAを紹介する。
静的な模倣とは異なり、EvoCUAはデータ生成とポリシー最適化を自己持続的な進化サイクルに統合する。
EvoCUAは以前の最高のオープンソースモデルであるOpenCUA-72Bを大きく上回っている。
- 参考スコア(独自算出の注目度): 44.734653745434834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of native computer-use agents (CUA) represents a significant leap in multimodal AI. However, their potential is currently bottlenecked by the constraints of static data scaling. Existing paradigms relying primarily on passive imitation of static datasets struggle to capture the intricate causal dynamics inherent in long-horizon computer tasks. In this work, we introduce EvoCUA, a native computer use agentic model. Unlike static imitation, EvoCUA integrates data generation and policy optimization into a self-sustaining evolutionary cycle. To mitigate data scarcity, we develop a verifiable synthesis engine that autonomously generates diverse tasks coupled with executable validators. To enable large-scale experience acquisition, we design a scalable infrastructure orchestrating tens of thousands of asynchronous sandbox rollouts. Building on these massive trajectories, we propose an iterative evolving learning strategy to efficiently internalize this experience. This mechanism dynamically regulates policy updates by identifying capability boundaries -- reinforcing successful routines while transforming failure trajectories into rich supervision through error analysis and self-correction. Empirical evaluations on the OSWorld benchmark demonstrate that EvoCUA achieves a success rate of 56.7%, establishing a new open-source state-of-the-art. Notably, EvoCUA significantly outperforms the previous best open-source model, OpenCUA-72B (45.0%), and surpasses leading closed-weights models such as UI-TARS-2 (53.1%). Crucially, our results underscore the generalizability of this approach: the evolving paradigm driven by learning from experience yields consistent performance gains across foundation models of varying scales, establishing a robust and scalable path for advancing native agent capabilities.
- Abstract(参考訳): ネイティブコンピュータ利用エージェント(CUA)の開発は、マルチモーダルAIにおける大きな飛躍を表している。
しかし、彼らのポテンシャルは、現在静的データスケーリングの制約によってボトルネックになっている。
既存のパラダイムは、主に静的データセットの受動的模倣に依存しており、長い水平コンピュータタスクに固有の複雑な因果ダイナミクスを捉えるのに苦労している。
本稿では,ネイティブコンピュータのエージェントモデルであるEvoCUAを紹介する。
静的な模倣とは異なり、EvoCUAはデータ生成とポリシー最適化を自己持続的な進化サイクルに統合する。
データの不足を軽減するため,多種多様なタスクを自動生成する検証可能な合成エンジンを開発した。
大規模なエクスペリエンス獲得を可能にするため、数万の非同期サンドボックスロールアウトを編成するスケーラブルなインフラストラクチャを設計する。
これらの大規模軌道に基づいて,この経験を効果的に内在化するための反復的進化学習戦略を提案する。
このメカニズムは、機能境界を識別することでポリシー更新を動的に制御する -- 障害トラジェクトリをエラー解析と自己修正を通じて、リッチな監視に変換しながら、成功したルーチンを補強する。
OSWorldベンチマークでの実証的な評価は、EvoCUAが56.7%の成功率を達成し、新しいオープンソースの最先端技術を確立したことを示している。
特に、EvoCUAは以前の最高のオープンソースモデルであるOpenCUA-72B(45.0%)を大きく上回り、UI-TARS-2(53.1%)のような主要なクローズドウェイトモデルを上回っている。
経験から学ぶことによる進化的パラダイムは、さまざまなスケールの基盤モデル全体にわたって一貫したパフォーマンス向上をもたらし、ネイティブエージェント能力を向上するための堅牢でスケーラブルなパスを確立します。
関連論文リスト
- From Agentification to Self-Evolving Agentic AI for Wireless Networks: Concepts, Approaches, and Future Research Directions [70.72279728350763]
自律進化型エージェント人工知能(AI)は、将来の無線システムに新しいパラダイムを提供する。
静的AIモデルとは異なり、自己進化エージェントは、モデルやツールを更新し、環境ダイナミクスに対応する自律進化サイクルを組み込む。
本稿では,自己進化型エージェントAIの概要を概説し,その階層化アーキテクチャ,ライフサイクル,鍵となる技術について述べる。
論文 参考訳(メタデータ) (2025-10-07T05:45:25Z) - SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - Evolutionary Generative Optimization: Towards Fully Data-Driven Evolutionary Optimization via Generative Learning [41.44929681213813]
我々は、生成学習によって強化された完全なデータ駆動型フレームワークを提案する。
EvoGOは進化的最適化プロセスを、データ準備、モデルトレーニング、人口生成の3段階に合理化している。
数値ベンチマーク、古典的な制御問題、高次元ロボットタスクの実験により、EvoGOはわずか10世代で一貫して収束することを示した。
論文 参考訳(メタデータ) (2025-08-01T07:17:57Z) - ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。
まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。
次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文 参考訳(メタデータ) (2025-05-12T12:48:30Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Trackable Agent-based Evolution Models at Wafer Scale [0.0]
我々は,85万プロセッサCerebras Wafer Scale Engine(WSE)のエージェントベース進化から系統情報を抽出する問題に焦点をあてる。
We present a asynchronous island-based genetic algorithm (GA) framework for WSE hardware。
本研究は,これらの治験の系統的再構成を検証し,根底にある進化状態の推測に適合することを示す。
論文 参考訳(メタデータ) (2024-04-16T19:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。