論文の概要: OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
- arxiv url: http://arxiv.org/abs/2404.07972v2
- Date: Thu, 30 May 2024 08:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:25:21.134845
- Title: OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
- Title(参考訳): OSWorld: 実コンピュータ環境におけるオープンなタスクのためのマルチモーダルエージェントのベンチマーク
- Authors: Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu,
- Abstract要約: マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
- 参考スコア(独自算出の注目度): 87.41051677852231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability. To address this issue, we introduce OSWorld, the first-of-its-kind scalable, real computer environment for multimodal agents, supporting task setup, execution-based evaluation, and interactive learning across various operating systems such as Ubuntu, Windows, and macOS. OSWorld can serve as a unified, integrated computer environment for assessing open-ended computer tasks that involve arbitrary applications. Building upon OSWorld, we create a benchmark of 369 computer tasks involving real web and desktop apps in open domains, OS file I/O, and workflows spanning multiple applications. Each task example is derived from real-world computer use cases and includes a detailed initial state setup configuration and a custom execution-based evaluation script for reliable, reproducible evaluation. Extensive evaluation of state-of-the-art LLM/VLM-based agents on OSWorld reveals significant deficiencies in their ability to serve as computer assistants. While humans can accomplish over 72.36% of the tasks, the best model achieves only 12.24% success, primarily struggling with GUI grounding and operational knowledge. Comprehensive analysis using OSWorld provides valuable insights for developing multimodal generalist agents that were not possible with previous benchmarks. Our code, environment, baseline models, and data are publicly available at https://os-world.github.io.
- Abstract(参考訳): 人間の介入を最小限に抑えた複雑なコンピュータタスクを遂行する自律エージェントは、人間とコンピュータの相互作用を変革し、アクセシビリティと生産性を大幅に向上させる可能性がある。
しかし、既存のベンチマークでは、対話的な環境が欠如しているか、特定のアプリケーションやドメインに特有の環境に限られているか、現実世界のコンピュータ利用の多様で複雑な性質を反映していないため、タスクの範囲やエージェントのスケーラビリティが制限されている。
この問題に対処するため,我々は,マルチモーダルエージェント,タスク設定のサポート,実行ベース評価,Ubuntu,Windows,macOSなどのさまざまなオペレーティングシステムにおけるインタラクティブな学習など,マルチモーダルエージェントのための,最初期のスケーラブルで現実的なコンピュータ環境であるOSWorldを紹介した。
OSWorldは、任意のアプリケーションを含むオープンエンドのコンピュータタスクを評価するための統合されたコンピュータ環境として機能する。
OSWorld上に構築された369のコンピュータタスクのベンチマークでは、オープンドメインの実際のWebアプリケーションとデスクトップアプリ、OSファイルI/O、複数のアプリケーションにまたがるワークフローが関係しています。
各タスクの例は、実世界のコンピュータのユースケースから派生したもので、詳細な初期状態設定と、信頼性のある再現可能な評価のためのカスタム実行ベースの評価スクリプトを含んでいる。
OSWorldにおける最先端のLDM/VLMエージェントの広範囲な評価は、コンピュータアシスタントとして機能する能力に重大な欠陥があることを明らかにしている。
人間は72.36%以上のタスクを達成できるが、最良のモデルは12.24%しか成功していない。
OSWorldを用いた包括的な分析は、以前のベンチマークでは不可能だったマルチモーダルジェネラリストエージェントを開発する上で、貴重な洞察を提供する。
私たちのコード、環境、ベースラインモデル、データはhttps://os-world.github.io.comで公開されています。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [52.83132876539399]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果, GPT-4oの単剤は35。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
高度な推論能力を持つ大規模言語モデル(LLM)は、エージェントがより複雑で以前は目に見えないタスクをこなすためのステージを定めている。
環境認識のためのスクリーンショットのみに基づいて機能するエージェントを提案する。
67種類のMiniWoB++問題に対して94.4%の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-02-12T07:29:22Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。