論文の概要: OpenComputer: Verifiable Software Worlds for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2605.19769v1
- Date: Tue, 19 May 2026 12:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.332814
- Title: OpenComputer: Verifiable Software Worlds for Computer-Use Agents
- Title(参考訳): OpenComputer: コンピュータ利用エージェントのための検証可能なソフトウェアワールド
- Authors: Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan,
- Abstract要約: OpenComputerは、コンピュータ利用エージェントの検証可能なソフトウェア世界を構築するための検証済みのフレームワークである。
OpenComputerは現在の形式で、ブラウザ、オフィスツール、クリエイティブソフトウェア、開発環境、ファイルマネージャ、通信アプリケーションにまたがる、33のデスクトップアプリケーションと1,000の最終的なタスクをカバーしている。
- 参考スコア(独自算出の注目度): 50.93029275079928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.
- Abstract(参考訳): 我々は,コンピュータ利用エージェントの検証可能なソフトウェア世界を構築するための検証済みのフレームワークであるOpenComputerを提案する。
OpenComputerは,(1)実際のアプリケーション上で構造化された検査エンドポイントを公開するアプリ固有の状態検証レイヤ,(2)実行時のフィードバックによる検証の信頼性向上を行うセルフ進化検証レイヤ,(3)現実的でマシンチェック可能なデスクトップタスクを合成するタスク生成パイプライン,(4)完全なトラジェクトリの記録と監査可能な部分クレジット報酬の計算を行う評価ハーネスの4つのコンポーネントを統合する。
OpenComputerは現在の形式で、ブラウザ、オフィスツール、クリエイティブソフトウェア、開発環境、ファイルマネージャ、通信アプリケーションにまたがる、33のデスクトップアプリケーションと1,000の最終的なタスクをカバーしている。
実験の結果,OpenComputer のハードコード検証は LLM-as-judge 評価よりも人間の判断と密接に一致していることがわかった。
フロンティアエージェントは部分的な進歩にもかかわらずエンドツーエンドの完了に苦慮し、オープンソースモデルはOSWorld-Verifiedスコアから急落し、堅牢なコンピュータ自動化において永続的なギャップを露呈する。
関連論文リスト
- OpenCUA: Open Foundations for Computer-Use Agents [74.61449905487565]
コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2025-08-12T17:52:32Z) - UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction [16.731754927372585]
UI-Visionは、コンピュータ使用エージェントのオフラインかつきめ細かい評価のための、最初の包括的なライセンス許容ベンチマークである。
オンラインベンチマークとは異なり、UI-Visionは人間のデモの密集した高品質なアノテーションを提供する。
評価の結果,UI-TARS-72Bのような最先端モデルの限界が明らかになった。
論文 参考訳(メタデータ) (2025-03-19T19:26:17Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。