Fugu-MT 論文翻訳(概要): Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

論文の概要: Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

arxiv url: http://arxiv.org/abs/2409.08264v1
Date: Thu, 12 Sep 2024 17:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 15:24:38.790179
Title: Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale
Title（参考訳）: Windows Agent Arena: 大規模マルチモーダルOSエージェントの評価
Authors: Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui,
Abstract要約: 大規模言語モデル(LLM)は、コンピュータエージェントとして機能する可能性を示す。現実的な環境でのエージェントのパフォーマンスの測定は依然として課題です Windows Agent Arenaは、Windows OS(OS)にのみ焦点をあてた再現可能な一般的な環境である。我々のエージェントはWindowsドメインで成功率19.5%を達成し、無支援の人間の74.5%のパフォーマンスと比較した。
参考スコア（独自算出の注目度）: 22.129745222496528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena
Abstract（参考訳）: 大規模言語モデル(LLM)はコンピュータエージェントとして機能し、計画や推論を必要とするマルチモーダルタスクにおける人間の生産性とソフトウェアアクセシビリティを向上させる。しかし、現実的な環境におけるエージェントのパフォーマンスの測定は、現在でも課題である。 (i)ほとんどのベンチマークは特定のモダリティやドメイン(テキストのみ、Webナビゲーション、Q&A、コーディングなど)に限定されている。 (ii)タスクの逐次的性質を考えると,ベンチマーク評価は遅い(日数等級)。これらの課題に対処するために、我々は、Windows Agent Arenaを紹介した: 再現可能な、Windows OS(OS)にのみ焦点をあてた一般的な環境。私たちはOSWorldフレームワーク(Xie et al , 2024)に適応し、計画、画面理解、ツール使用においてエージェント能力を必要とする代表ドメイン間で150以上の多様なWindowsタスクを作成します。私たちのベンチマークはスケーラブルで、完全なベンチマーク評価を20分以内で、Azureでシームレスに並列化できます。 Windows Agent Arenaの機能を示すために、新しいマルチモーダルエージェントであるNaviも導入した。我々のエージェントはWindowsドメインで成功率19.5%を達成し、無支援の人間の74.5%のパフォーマンスと比較した。 Naviはまた、もう1つの人気のあるWebベースのベンチマークであるMind2Webで、強力なパフォーマンスを示している。また, Windows Agent Arena を用いたエージェント開発とデータ生成における今後の研究の機会についての知見を提供する。 Webページ: https://microsoft.github.io/WindowsAgentArenaコード: https://github.com/microsoft/WindowsAgentArena

関連論文リスト

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。 Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-30T17:59:53Z)
UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文参考訳（メタデータ） (2025-04-20T13:04:43Z)
UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction [16.731754927372585]
UI-Visionは、コンピュータ使用エージェントのオフラインかつきめ細かい評価のための、最初の包括的なライセンス許容ベンチマークである。オンラインベンチマークとは異なり、UI-Visionは人間のデモの密集した高品質なアノテーションを提供する。評価の結果,UI-TARS-72Bのような最先端モデルの限界が明らかになった。
論文参考訳（メタデータ） (2025-03-19T19:26:17Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文参考訳（メタデータ） (2024-02-27T14:47:53Z)
ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文参考訳（メタデータ） (2024-02-09T02:33:45Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。