Fugu-MT 論文翻訳(概要): OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

論文の概要: OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

arxiv url: http://arxiv.org/abs/2404.07972v1
Date: Thu, 11 Apr 2024 17:56:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 13:01:15.149106
Title: OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
Title（参考訳）: OSWorld: 実コンピュータ環境におけるオープンなタスクのためのマルチモーダルエージェントのベンチマーク
Authors: Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu,
Abstract要約: マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
参考スコア（独自算出の注目度）: 87.41051677852231
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability. To address this issue, we introduce OSWorld, the first-of-its-kind scalable, real computer environment for multimodal agents, supporting task setup, execution-based evaluation, and interactive learning across various operating systems such as Ubuntu, Windows, and macOS. OSWorld can serve as a unified, integrated computer environment for assessing open-ended computer tasks that involve arbitrary applications. Building upon OSWorld, we create a benchmark of 369 computer tasks involving real web and desktop apps in open domains, OS file I/O, and workflows spanning multiple applications. Each task example is derived from real-world computer use cases and includes a detailed initial state setup configuration and a custom execution-based evaluation script for reliable, reproducible evaluation. Extensive evaluation of state-of-the-art LLM/VLM-based agents on OSWorld reveals significant deficiencies in their ability to serve as computer assistants. While humans can accomplish over 72.36% of the tasks, the best model achieves only 12.24% success, primarily struggling with GUI grounding and operational knowledge. Comprehensive analysis using OSWorld provides valuable insights for developing multimodal generalist agents that were not possible with previous benchmarks. Our code, environment, baseline models, and data are publicly available at https://os-world.github.io.
Abstract（参考訳）: 人間の介入を最小限に抑えた複雑なコンピュータタスクを遂行する自律エージェントは、人間とコンピュータの相互作用を変革し、アクセシビリティと生産性を大幅に向上させる可能性がある。しかし、既存のベンチマークでは、対話的な環境が欠如しているか、特定のアプリケーションやドメインに特有の環境に限られているか、現実世界のコンピュータ利用の多様で複雑な性質を反映していないため、タスクの範囲やエージェントのスケーラビリティが制限されている。この問題に対処するため,我々は,マルチモーダルエージェント,タスク設定のサポート,実行ベース評価,Ubuntu,Windows,macOSなどのさまざまなオペレーティングシステムにおけるインタラクティブな学習など,マルチモーダルエージェントのための,最初期のスケーラブルで現実的なコンピュータ環境であるOSWorldを紹介した。 OSWorldは、任意のアプリケーションを含むオープンエンドのコンピュータタスクを評価するための統合されたコンピュータ環境として機能する。 OSWorld上に構築された369のコンピュータタスクのベンチマークでは、オープンドメインの実際のWebアプリケーションとデスクトップアプリ、OSファイルI/O、複数のアプリケーションにまたがるワークフローが関係しています。各タスクの例は、実世界のコンピュータのユースケースから派生したもので、詳細な初期状態設定と、信頼性のある再現可能な評価のためのカスタム実行ベースの評価スクリプトを含んでいる。 OSWorldにおける最先端のLDM/VLMエージェントの広範囲な評価は、コンピュータアシスタントとして機能する能力に重大な欠陥があることを明らかにしている。人間は72.36%以上のタスクを達成できるが、最良のモデルは12.24%しか成功していない。 OSWorldを用いた包括的な分析は、以前のベンチマークでは不可能だったマルチモーダルジェネラリストエージェントを開発する上で、貴重な洞察を提供する。私たちのコード、環境、ベースラインモデル、データはhttps://os-world.github.io.comで公開されています。

関連論文リスト

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
OS-MAP: How Far Can Computer-Using Agents Go in Breadth and Depth? [30.788287791669458]
OS-MAPは、日々のコンピュータ利用自動化のためのベンチマークである。 15のアプリケーションにまたがる416の現実的なタスクを2つの重要な次元に沿って整理する。必要なエージェントの自律性と一般化のレベルが異なる。
論文参考訳（メタデータ） (2025-07-25T10:14:53Z)
OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents [6.726770697869473]
我々は、コンピュータ利用AIのフラッグシップベンチマークであるOSWorld上で、コンピュータ利用エージェントの時間的パフォーマンスに関する最初の研究を行う。計画とリフレクションのための大規模なモデル呼び出しは、全体のレイテンシの大部分を占めています。次に、OSWorld-HumanというオリジナルのOSWorldデータセットを手動でアノテートしたバージョンを構築します。
論文参考訳（メタデータ） (2025-06-19T05:26:40Z)
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文参考訳（メタデータ） (2025-05-19T15:09:23Z)
InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文参考訳（メタデータ） (2025-05-16T05:43:27Z)
UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction [16.731754927372585]
UI-Visionは、コンピュータ使用エージェントのオフラインかつきめ細かい評価のための、最初の包括的なライセンス許容ベンチマークである。オンラインベンチマークとは異なり、UI-Visionは人間のデモの密集した高品質なアノテーションを提供する。評価の結果,UI-TARS-72Bのような最先端モデルの限界が明らかになった。
論文参考訳（メタデータ） (2025-03-19T19:26:17Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale [22.493676199881794]
大規模言語モデル(LLM)は、コンピュータエージェントとして機能する可能性を示す。現実的な環境でのエージェントのパフォーマンスの測定は依然として課題です Windows Agent Arenaは、Windows OS(OS)にのみ焦点をあてた再現可能な一般的な環境である。我々のエージェントはWindowsドメインで成功率19.5%を達成し、無支援の人間の74.5%のパフォーマンスと比較した。
論文参考訳（メタデータ） (2024-09-12T17:56:43Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。 AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文参考訳（メタデータ） (2024-03-26T17:54:15Z)
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文参考訳（メタデータ） (2024-02-27T14:47:53Z)
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文参考訳（メタデータ） (2024-02-12T07:29:22Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。