論文の概要: OpenCUA: Open Foundations for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2508.09123v3
- Date: Sat, 04 Oct 2025 17:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.487644
- Title: OpenCUA: Open Foundations for Computer-Use Agents
- Title(参考訳): OpenCUA: コンピュータ利用エージェントのためのオープンファウンデーション
- Authors: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Haotian Yao, Ziwei Chen, Qizheng Gu, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu,
- Abstract要約: コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
- 参考スコア(独自算出の注目度): 74.61449905487565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive open-source framework for scaling CUA data and foundation models. Our framework consists of: (1) an annotation infrastructure that seamlessly captures human computer-use demonstrations; (2) AgentNet, the first large-scale computer-use task dataset spanning 3 operating systems and 200+ applications and websites; (3) a scalable pipeline that transforms demonstrations into state-action pairs with reflective long Chain-of-Thought reasoning that sustain robust performance gains as data scales. Our end-to-end agent models demonstrate strong performance across CUA benchmarks. In particular, OpenCUA-72B achieves an average success rate of 45.0% on OSWorld-Verified, establishing a new state-of-the-art (SOTA) among open-source models. Further analysis confirms that our approach generalizes well across domains and benefits significantly from increased test-time computation. We release our annotation tool, datasets, code, and models to build open foundations for further CUA research.
- Abstract(参考訳): 視覚言語モデルは、多様なコンピュータタスクを自動化できるコンピュータ利用エージェント(CUA)として印象的な能力を示している。
商業的ポテンシャルが増大するにつれて、最も有能なCUAシステムの重要な詳細はいまだに閉鎖されている。
これらのエージェントは、デジタルインタラクションを仲介し、私たちの代表として連続的な決定を行うようになるため、研究コミュニティは、その能力、制限、リスクを研究するためにオープンなCUAフレームワークにアクセスする必要があります。
このギャップを埋めるため、我々はCUAデータと基盤モデルをスケールするための包括的なオープンソースフレームワークであるOpenCUAを提案する。
筆者らのフレームワークは,(1)人間のコンピュータ利用のデモをシームレスにキャプチャするアノテーション基盤,(2)AgentNet,(3)3つのオペレーティングシステムと200以上のアプリケーションとWebサイトにまたがる最初の大規模コンピュータ利用タスクデータセット,(3)データスケールによって堅牢なパフォーマンスが向上する,反射的な長鎖の推論による状態対応ペアに変換するスケーラブルなパイプラインで構成されている。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
特に、OpenCUA-72Bは、OSWorld-Verifiedで平均45.0%の成功率を獲得し、オープンソースモデルの中で新しいSOTA(State-of-the-art)を確立した。
さらなる分析により、我々のアプローチはドメインをまたいでうまく一般化され、テスト時間計算の増大による大きな恩恵が得られます。
私たちは、CUA研究のためのオープンな基盤を構築するために、アノテーションツール、データセット、コード、モデルをリリースしています。
関連論文リスト
- FIRST: Federated Inference Resource Scheduling Toolkit for Scientific AI Model Access [7.480885391518904]
FIRSTは、既存のHPCインフラストラクチャ上のLarge Language Models(LLM)など、さまざまなAIモデルへのクラウドライクなアクセスを提供する。
システムは、プライベートでセキュアな環境でOpenAI準拠のAPIを介して、並列推論ワークロードを実行することができる。
論文 参考訳(メタデータ) (2025-10-15T16:28:34Z) - LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data [119.41354691583899]
ScaleCUAは、オープンソースのコンピュータ利用データとファンデーションモデルをスケーリングするためのステップである。
6つのオペレーティングシステムと3つのタスクドメインにまたがる大規模なデータセットを提供する。
論文 参考訳(メタデータ) (2025-09-18T17:59:22Z) - DPO Learning with LLMs-Judge Signal for Computer Use Agents [9.454381108993832]
コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・インタフェース(GUI)と自動的に対話してタスクを完了させるシステムである。
ローカルマシン上で完全に動作する軽量な視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2025-06-03T17:27:04Z) - O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering [31.38063794496179]
O$2$-Searcherは、強化学習を利用してオープンドメインのオープンエンドとクローズドエンドの両方の質問に対処する、新しい検索エージェントである。
厳密に設計された報酬関数を備えた統一的なトレーニング機構を使用して、エージェントは問題タイプを特定し、異なる回答生成戦略を適用することができる。
O$2$-Searcherは3Bモデルのみを使用しており、O$2$-QA上でのLLMエージェントをはるかに上回っている。
論文 参考訳(メタデータ) (2025-05-22T12:17:13Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文 参考訳(メタデータ) (2024-10-12T23:42:16Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-02-12T07:29:22Z) - Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Intelligence-Endogenous Management Platform for Computing and Network
Convergence [33.45559800534038]
我々は,人工知能技術に基づくemphCNC脳という,CNCのためのインテリジェンス内在的管理プラットフォームの概念を提示する。
これは、CNCにおける供給と需要を、知覚、スケジューリング、適応、ガバナンスの4つの重要な構成要素を通して、高い不均一性と効率的にマッチングすることを目的としている。
2つのオープンソースおよび人気のあるフレームワークと、Microsoft Azureが提供する実世界のビジネスデータセットを統合するCNCテストベッドで評価されている。
論文 参考訳(メタデータ) (2023-08-07T10:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。