Fugu-MT 論文翻訳(概要): OpenComputer: Verifiable Software Worlds for Computer-Use Agents

論文の概要: OpenComputer: Verifiable Software Worlds for Computer-Use Agents

arxiv url: http://arxiv.org/abs/2605.19769v1
Date: Tue, 19 May 2026 12:40:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.332814
Title: OpenComputer: Verifiable Software Worlds for Computer-Use Agents
Title（参考訳）: OpenComputer: コンピュータ利用エージェントのための検証可能なソフトウェアワールド
Authors: Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan,
Abstract要約: OpenComputerは、コンピュータ利用エージェントの検証可能なソフトウェア世界を構築するための検証済みのフレームワークである。 OpenComputerは現在の形式で、ブラウザ、オフィスツール、クリエイティブソフトウェア、開発環境、ファイルマネージャ、通信アプリケーションにまたがる、33のデスクトップアプリケーションと1,000の最終的なタスクをカバーしている。
参考スコア（独自算出の注目度）: 50.93029275079928
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.
Abstract（参考訳）: 我々は,コンピュータ利用エージェントの検証可能なソフトウェア世界を構築するための検証済みのフレームワークであるOpenComputerを提案する。 OpenComputerは,(1)実際のアプリケーション上で構造化された検査エンドポイントを公開するアプリ固有の状態検証レイヤ,(2)実行時のフィードバックによる検証の信頼性向上を行うセルフ進化検証レイヤ,(3)現実的でマシンチェック可能なデスクトップタスクを合成するタスク生成パイプライン,(4)完全なトラジェクトリの記録と監査可能な部分クレジット報酬の計算を行う評価ハーネスの4つのコンポーネントを統合する。 OpenComputerは現在の形式で、ブラウザ、オフィスツール、クリエイティブソフトウェア、開発環境、ファイルマネージャ、通信アプリケーションにまたがる、33のデスクトップアプリケーションと1,000の最終的なタスクをカバーしている。実験の結果,OpenComputer のハードコード検証は LLM-as-judge 評価よりも人間の判断と密接に一致していることがわかった。フロンティアエージェントは部分的な進歩にもかかわらずエンドツーエンドの完了に苦慮し、オープンソースモデルはOSWorld-Verifiedスコアから急落し、堅牢なコンピュータ自動化において永続的なギャップを露呈する。

論文の概要: OpenComputer: Verifiable Software Worlds for Computer-Use Agents

関連論文リスト