Fugu-MT 論文翻訳(概要): MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

論文の概要: MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

arxiv url: http://arxiv.org/abs/2606.06560v1
Date: Thu, 04 Jun 2026 14:01:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.373772
Title: MacArena: Benchmarking Computer Use Agents on an Online macOS Environment
Title（参考訳）: MacArena: オンラインmacOS環境におけるコンピュータ使用エージェントのベンチマーク
Authors: Victor Muryn, Maksym Shamrai, Sofiia Mazepa, Yehor Khodysko,
Abstract要約: コンピュータ利用エージェント(CUA)は、視覚と制御プリミティブを通してグラフィカルユーザインタフェース(GUI)を操作する。既存のベンチマークであるOSWorldだけが、より単純なタスクで、サードパーティアプリケーションの限定的なスライスをカバーしている。我々は、50のアプリケーションにまたがる421の検証タスクのベンチマークであるMacArenaを紹介した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Computer-use agents (CUAs) operate graphical user interfaces (GUIs) through vision and control primitives, and their capabilities have advanced rapidly, driven in part by standardized online evaluation benchmarks such as OSWorld, which serve both as evaluation tools and as training environments for reinforcement learning. However, macOS remains underserved in this landscape: the only existing benchmark, macOSWorld, covers a narrow slice of first-party applications with simpler tasks, and runs on x86 virtual machines incompatible with Apple Silicon. We introduce MacArena, a benchmark of 421 manually verified tasks spanning 50 applications that combines a curated port of OSWorld tasks, content sourced from macOSWorld, and 49 new macOS-native tasks, all running on Apple's native Virtualization framework on Apple Silicon. We argue that macOS presents distinct GUI challenges beyond what Linux-based benchmarks capture, and our evaluation supports this claim: strong model performance on existing benchmarks can reflect familiarity with task distributions rather than genuine cross-platform GUI competence. Notably, model rankings invert between ported and macOS-native tasks, with a leading model trailing by over 26% on the MacArena subset, suggesting that macOS poses a genuinely harder environment for current GUI agents.
Abstract（参考訳）: コンピュータ利用エージェント(CUA)は、視覚と制御プリミティブを通じてグラフィカルユーザインタフェース(GUI)を運用し、その能力は、OSWorldのような、評価ツールや強化学習のためのトレーニング環境として機能する標準化されたオンライン評価ベンチマークによって、急速に向上している。唯一のベンチマークであるmacOSWorldは、単純なタスクで少数のファーストパーティアプリケーションをカバーし、Apple Siliconと互換性のないx86仮想マシン上で動作する。これは、OSWorldタスクのキュレートされたポート、macOSWorldからソースされたコンテンツ、および49の新しいmacOSネイティブタスクを組み合わせた50のアプリケーションにまたがる、手動で検証された421タスクのベンチマークである。既存のベンチマークの強力なモデルパフォーマンスは、真のクロスプラットフォームGUI能力ではなく、タスク配布に精通していることを反映します。特に、移植されたタスクとmacOSネイティブタスクの間でモデルランキングが逆転し、主要なモデルがMacArenaサブセットで26%以上追随し、macOSが現在のGUIエージェントにとって本当に難しい環境を呈していることを示唆している。

関連論文リスト

WinDeskGround: A Benchmark for Robust GUI Grounding in Complex Multi-Window Desktop Environments [49.98994180610182]
MLLM (Multimodal Large Language Models) はGUIの自動化に革命をもたらしたが、その効果は理想化された単一層インタフェースでほぼ確立されている。本稿では,最先端のエージェントが現実のデスクトップ環境において,異なる課題に直面しているという,重要な信頼性ギャップを明らかにする。我々はGUI基盤の堅牢性を評価するための新しいベンチマークと合成フレームワークであるWinDeskGroundを紹介する。
論文参考訳（メタデータ） (2026-05-13T02:48:52Z)
OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.44308299945632]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文参考訳（メタデータ） (2025-12-18T08:29:50Z)
Production-Grade Local LLM Inference on Apple Silicon: A Comparative Study of MLX, MLC-LLM, Ollama, llama.cpp, and PyTorch MPS [0.08030359871216612]
我々は,Apple Silicon 上で 5 つの局所的大規模言語モデル (LLM) の体系的,実証的な評価を行う。 MLX, MLC-LLM, llama, Ollama, PyTorch MPSを試験した。
論文参考訳（メタデータ） (2025-10-09T23:53:38Z)
macOSWorld: A Multilingual Interactive Benchmark for GUI Agents [56.25808761731417]
グラフィカルユーザインタフェース(GUI)エージェントは、コンピュータ利用タスクを自動化するための有望な能力を示す。既存のインタラクティブベンチマークは主に英語のみで、WebアプリケーションやLinux、Android環境をカバーしている。 GUIWorldは、Windows上でGUIエージェントを評価するための最初の総合的なベンチマークである。
論文参考訳（メタデータ） (2025-06-04T16:26:56Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。