論文の概要: OpenCUA: Open Foundations for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2508.09123v1
- Date: Tue, 12 Aug 2025 17:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.533872
- Title: OpenCUA: Open Foundations for Computer-Use Agents
- Title(参考訳): OpenCUA: コンピュータ利用エージェントのためのオープンファウンデーション
- Authors: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu,
- Abstract要約: コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
商業的ポテンシャルが増大するにつれて、最も有能なCUAシステムの重要な詳細はいまだに閉鎖されている。
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
- 参考スコア(独自算出の注目度): 70.06483782470828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive open-source framework for scaling CUA data and foundation models. Our framework consists of: (1) an annotation infrastructure that seamlessly captures human computer-use demonstrations; (2) AgentNet, the first large-scale computer-use task dataset spanning 3 operating systems and 200+ applications and websites; (3) a scalable pipeline that transforms demonstrations into state-action pairs with reflective long Chain-of-Thought reasoning that sustain robust performance gains as data scales. Our end-to-end agent models demonstrate strong performance across CUA benchmarks. In particular, OpenCUA-32B achieves an average success rate of 34.8% on OSWorld-Verified, establishing a new state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA (GPT-4o). Further analysis confirms that our approach generalizes well across domains and benefits significantly from increased test-time computation. We release our annotation tool, datasets, code, and models to build open foundations for further CUA research.
- Abstract(参考訳): 視覚言語モデルは、多様なコンピュータタスクを自動化できるコンピュータ利用エージェント(CUA)として印象的な能力を示している。
商業的ポテンシャルが増大するにつれて、最も有能なCUAシステムの重要な詳細はいまだに閉鎖されている。
これらのエージェントは、デジタルインタラクションを仲介し、私たちの代表として連続的な決定を行うようになるため、研究コミュニティは、その能力、制限、リスクを研究するためにオープンなCUAフレームワークにアクセスする必要があります。
このギャップを埋めるため、我々はCUAデータと基盤モデルをスケールするための包括的なオープンソースフレームワークであるOpenCUAを提案する。
筆者らのフレームワークは,(1)人間のコンピュータ利用のデモをシームレスにキャプチャするアノテーション基盤,(2)AgentNet,(3)3つのオペレーティングシステムと200以上のアプリケーションとWebサイトにまたがる最初の大規模コンピュータ利用タスクデータセット,(3)データスケールによって堅牢なパフォーマンスが向上する,反射的な長鎖の推論による状態対応ペアに変換するスケーラブルなパイプラインで構成されている。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
特に、OpenCUA-32Bは、OSWorld-Verifiedで平均34.8%の成功率に達し、オープンソースモデルの中で新しい最先端(SOTA)を確立し、OpenAI CUA(GPT-4o)を上回っている。
さらなる分析により、我々のアプローチはドメインをまたいでうまく一般化され、テスト時間計算の増大による大きな恩恵が得られます。
私たちは、CUA研究のためのオープンな基盤を構築するために、アノテーションツール、データセット、コード、モデルをリリースしています。
関連論文リスト
- O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering [31.38063794496179]
O$2$-Searcherは、強化学習を利用してオープンドメインのオープンエンドとクローズドエンドの両方の質問に対処する、新しい検索エージェントである。
厳密に設計された報酬関数を備えた統一的なトレーニング機構を使用して、エージェントは問題タイプを特定し、異なる回答生成戦略を適用することができる。
O$2$-Searcherは3Bモデルのみを使用しており、O$2$-QA上でのLLMエージェントをはるかに上回っている。
論文 参考訳(メタデータ) (2025-05-22T12:17:13Z) - OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文 参考訳(メタデータ) (2024-10-12T23:42:16Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Intelligence-Endogenous Management Platform for Computing and Network
Convergence [33.45559800534038]
我々は,人工知能技術に基づくemphCNC脳という,CNCのためのインテリジェンス内在的管理プラットフォームの概念を提示する。
これは、CNCにおける供給と需要を、知覚、スケジューリング、適応、ガバナンスの4つの重要な構成要素を通して、高い不均一性と効率的にマッチングすることを目的としている。
2つのオープンソースおよび人気のあるフレームワークと、Microsoft Azureが提供する実世界のビジネスデータセットを統合するCNCテストベッドで評価されている。
論文 参考訳(メタデータ) (2023-08-07T10:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。