論文の概要: macOSWorld: A Multilingual Interactive Benchmark for GUI Agents
- arxiv url: http://arxiv.org/abs/2506.04135v1
- Date: Wed, 04 Jun 2025 16:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.466134
- Title: macOSWorld: A Multilingual Interactive Benchmark for GUI Agents
- Title(参考訳): macOSWorld:GUIエージェントのための多言語対話型ベンチマーク
- Authors: Pei Yang, Hai Ci, Mike Zheng Shou,
- Abstract要約: 我々は、グラフィカルユーザインタフェース(GUI)エージェントを評価するための最初の包括的なベンチマークであるMultilingualWorldを紹介する。
タスク命令とOSインターフェースが5つの言語で提供されている。
プロプライエタリなコンピュータ利用エージェントは30%以上の成功率で、オープンソースの軽量な研究モデルは2%未満で遅れている。
- 参考スコア(独自算出の注目度): 19.734768644310414
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Graphical User Interface (GUI) agents show promising capabilities for automating computer-use tasks and facilitating accessibility, but existing interactive benchmarks are mostly English-only, covering web-use or Windows, Linux, and Android environments, but not macOS. macOS is a major OS with distinctive GUI patterns and exclusive applications. To bridge the gaps, we present macOSWorld, the first comprehensive benchmark for evaluating GUI agents on macOS. macOSWorld features 202 multilingual interactive tasks across 30 applications (28 macOS-exclusive), with task instructions and OS interfaces offered in 5 languages (English, Chinese, Arabic, Japanese, and Russian). As GUI agents are shown to be vulnerable to deception attacks, macOSWorld also includes a dedicated safety benchmarking subset. Our evaluation on six GUI agents reveals a dramatic gap: proprietary computer-use agents lead at above 30% success rate, while open-source lightweight research models lag at below 2%, highlighting the need for macOS domain adaptation. Multilingual benchmarks also expose common weaknesses, especially in Arabic, with a 27.5% average degradation compared to English. Results from safety benchmarking also highlight that deception attacks are more general and demand immediate attention. macOSWorld is available at https://github.com/showlab/macosworld.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、コンピュータ利用タスクの自動化とアクセシビリティの促進に有望な能力を示しているが、既存のインタラクティブベンチマークは主に英語のみであり、Web利用やWindows、Linux、Android環境をカバーするが、macOSではない。
macOSはGUIパターンと排他的アプリケーションを備えた主要なOSである。
ギャップを埋めるために、私たちはmacOS上でGUIエージェントを評価するための最初の包括的なベンチマークであるmacOSWorldを紹介します。
macOSWorldは30のアプリケーションにまたがる202の多言語対話タスク(28のmacOS専用)と5つの言語(英語、中国語、アラビア語、日本語、ロシア語)で提供されるタスク命令とOSインターフェースを備えている。
GUIエージェントが詐欺攻撃に弱いことが示されているため、macOSWorldには専用の安全ベンチマークサブセットも含まれている。
プロプライエタリなコンピュータ利用エージェントは30%以上の成功率で、オープンソースの軽量な研究モデルは2%未満で、macOSドメイン適応の必要性を強調しています。
多言語ベンチマークはまた、特にアラビア語では、英語と比較して27.5%の劣化率で共通の弱点を露呈している。
安全性ベンチマークの結果は、詐欺攻撃がより一般的であり、即時注意が必要であることも強調している。
macOSWorldはhttps://github.com/showlab/macosworld.comで公開されている。
関連論文リスト
- AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale [22.493676199881794]
大規模言語モデル(LLM)は、コンピュータエージェントとして機能する可能性を示す。
現実的な環境でのエージェントのパフォーマンスの測定は 依然として課題です
Windows Agent Arenaは、Windows OS(OS)にのみ焦点をあてた再現可能な一般的な環境である。
我々のエージェントはWindowsドメインで成功率19.5%を達成し、無支援の人間の74.5%のパフォーマンスと比較した。
論文 参考訳(メタデータ) (2024-09-12T17:56:43Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。