論文の概要: ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
- arxiv url: http://arxiv.org/abs/2509.15221v1
- Date: Thu, 18 Sep 2025 17:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.399531
- Title: ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
- Title(参考訳): ScaleCUA: クロスプラットフォームデータによるオープンソースのコンピュータ使用エージェントのスケーリング
- Authors: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang,
- Abstract要約: ScaleCUAは、オープンソースのコンピュータ利用データとファンデーションモデルをスケーリングするためのステップである。
6つのオペレーティングシステムと3つのタスクドメインにまたがる大規模なデータセットを提供する。
- 参考スコア(独自算出の注目度): 119.75661605389327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have enabled computer use agents (CUAs) that operate GUIs autonomously, showing great potential, yet progress is limited by the lack of large-scale, open-source computer use data and foundation models. In this work, we introduce ScaleCUA, a step toward scaling open-source CUAs. It offers a large-scale dataset spanning 6 operating systems and 3 task domains, built via a closed-loop pipeline uniting automated agents with human experts. Trained on this scaled-up data, ScaleCUA can operate seamlessly across platforms. Specifically, it delivers strong gains over baselines (+26.6 on WebArena-Lite-v2, +10.7 on ScreenSpot-Pro) and sets new state-of-the-art results (94.4% on MMBench-GUI L1-Hard, 60.6% on OSWorld-G, 47.4% on WebArena-Lite-v2). These findings underscore the power of data-driven scaling for general-purpose computer use agents. We will release data, models, and code to advance future research: https://github.com/OpenGVLab/ScaleCUA.
- Abstract(参考訳): VLM(Vision-Language Models)はGUIを自律的に運用するコンピュータ・ユース・エージェント(CUA)を実現しているが、大規模でオープンソースのコンピュータ・ユース・データとファンデーション・モデルがないため進歩は限られている。
本研究では,オープンソースCUAのスケールアップに向けたステップであるScaleCUAを紹介する。
6つのオペレーティングシステムと3つのタスクドメインにまたがる大規模なデータセットを提供する。
このスケールアップデータに基づいて、ScaleCUAはプラットフォーム間でシームレスに動作する。
具体的には、ベースライン(WebArena-Lite-v2で+26.6、ScreenSpot-Proで+10.7)をはるかに上回り、新しい最先端結果(MMBench-GUI L1-Hardで94.4%、OSWorld-Gで60.6%、WebArena-Lite-v2で47.4%)を新たに設定する。
これらの知見は汎用コンピュータ利用エージェントにおけるデータ駆動スケーリングのパワーを浮き彫りにした。
将来の研究を進めるために、データ、モデル、コードをリリースします。
関連論文リスト
- UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - OpenCUA: Open Foundations for Computer-Use Agents [71.17624594647768]
コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
商業的ポテンシャルが増大するにつれて、最も有能なCUAシステムの重要な詳細はいまだに閉鎖されている。
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
論文 参考訳(メタデータ) (2025-08-12T17:52:32Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - TinyAgent: Function Calling at the Edge [32.174966522801746]
本稿では,エッジ上でエージェントシステムを駆動するための関数呼び出しが可能なタスク固有小言語モデルエージェントの訓練とデプロイのためのエンドツーエンドフレームワークを提案する。
駆動アプリケーションとして、テキストや音声入力によるユーザコマンドの実行が可能な、AppleのMacBook用のローカルSiriライクなシステムをデモする。
論文 参考訳(メタデータ) (2024-09-01T04:23:48Z) - Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。
私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-12-14T10:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。