論文の概要: UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
- arxiv url: http://arxiv.org/abs/2510.17790v1
- Date: Mon, 20 Oct 2025 17:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.549848
- Title: UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
- Title(参考訳): UltraCUA:ハイブリッドアクションを用いたコンピュータ利用エージェントの基礎モデル
- Authors: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan,
- Abstract要約: 本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 77.63125913907771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal agents for computer use rely exclusively on primitive actions (click, type, scroll) that require accurate visual grounding and lengthy execution chains, leading to cascading failures and performance bottlenecks. While other agents leverage rich programmatic interfaces (APIs, MCP servers, tools), computer-use agents (CUAs) remain isolated from these capabilities. We present UltraCUA, a foundation model that bridges this gap through hybrid action -- seamlessly integrating GUI primitives with high-level programmatic tool calls. To achieve this, our approach comprises four key components: (1) an automated pipeline that scales programmatic tools from software documentation, open-source repositories, and code generation; (2) a synthetic data engine producing over 17,000 verifiable tasks spanning real-world computer-use scenarios; (3) a large-scale high-quality hybrid action trajectory collection with both low-level GUI actions and high-level programmatic tool calls; and (4) a two-stage training pipeline combining supervised fine-tuning with online reinforcement learning, enabling strategic alternation between low-level and high-level actions. Experiments with our 7B and 32B models demonstrate substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA models achieve an average 22% relative improvement over base models, while being 11% faster in terms of steps. Out-of-domain evaluation on WindowsAgentArena shows our model reaches 21.7% success rate, outperforming baselines trained on Windows data. The hybrid action mechanism proves critical, reducing error propagation while maintaining execution efficiency.
- Abstract(参考訳): コンピュータ用マルチモーダルエージェントは、正確なビジュアルグラウンドと長い実行チェーンを必要とするプリミティブアクション(クリック、タイプ、スクロール)にのみ依存しており、カスケード障害とパフォーマンスボトルネックの原因となっている。
他のエージェントはリッチなプログラムインタフェース(API、MPPサーバ、ツール)を利用しているが、コンピュータ利用エージェント(CUA)はこれらの機能から孤立していない。
我々は、このギャップをハイブリッドアクションを通じて橋渡しする基盤モデルであるUltraCUAを紹介します。
そこで本手法は,(1)ソフトウェアドキュメンテーション,オープンソースリポジトリ,コード生成からプログラムツールをスケールする自動パイプライン,(2)現実のコンピュータ利用シナリオにまたがる17,000以上の検証可能なタスクを生成する合成データエンジン,(3)低レベルのGUIアクションと高レベルのプログラムツールコールを併用した大規模ハイクオリティなハイブリッドアクショントラジェクトリコレクション,(4)教師付き微調整とオンライン強化学習を組み合わせた2段階のトレーニングパイプライン,の4つの要素から構成される。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
OSWorldでは、UltraCUAモデルはベースモデルよりも平均22%改善され、ステップでは11%高速化された。
WindowsAgentArenaのドメイン外評価では、我々のモデルは21.7%の成功率に達し、Windowsデータでトレーニングされたベースラインを上回っている。
ハイブリッドアクションメカニズムは、実行効率を維持しながらエラーの伝播を減少させる。
関連論文リスト
- Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - AWorld: Orchestrating the Training Recipe for Agentic AI [35.94278765364194]
本稿では,大規模エージェント-環境相互作用のためのオープンソースシステムであるAWorldを紹介する。
タスクをクラスタに分散することで、AWorldは通常の単一ノードのシーケンシャル実行と比較して、エクスペリエンスコレクションを14.6倍高速化する。
GAIAテストセットでパス@1精度32.23%のQwen3-32Bエージェントを訓練した。
論文 参考訳(メタデータ) (2025-08-28T04:04:30Z) - CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文 参考訳(メタデータ) (2025-08-05T21:33:36Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。