論文の概要: OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2506.16042v1
- Date: Thu, 19 Jun 2025 05:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.94935
- Title: OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents
- Title(参考訳): OSWorld-Human: コンピュータ利用エージェントの効率をベンチマークする
- Authors: Reyna Abhyankar, Qi Qi, Yiying Zhang,
- Abstract要約: 我々は、コンピュータ利用AIのフラッグシップベンチマークであるOSWorld上で、コンピュータ利用エージェントの時間的パフォーマンスに関する最初の研究を行う。
計画とリフレクションのための大規模なモデル呼び出しは、全体のレイテンシの大部分を占めています。
次に、OSWorld-HumanというオリジナルのOSWorldデータセットを手動でアノテートしたバージョンを構築します。
- 参考スコア(独自算出の注目度): 6.726770697869473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI is being leveraged to solve a variety of computer-use tasks involving desktop applications. State-of-the-art systems have focused solely on improving accuracy on leading benchmarks. However, these systems are practically unusable due to extremely high end-to-end latency (e.g., tens of minutes) for tasks that typically take humans just a few minutes to complete. To understand the cause behind this and to guide future developments of computer agents, we conduct the first study on the temporal performance of computer-use agents on OSWorld, the flagship benchmark in computer-use AI. We find that large model calls for planning and reflection account for the majority of the overall latency, and as an agent uses more steps to complete a task, each successive step can take 3x longer than steps at the beginning of a task. We then construct OSWorld-Human, a manually annotated version of the original OSWorld dataset that contains a human-determined trajectory for each task. We evaluate 16 agents on their efficiency using OSWorld-Human and found that even the highest-scoring agents on OSWorld take 1.4-2.7x more steps than necessary.
- Abstract(参考訳): ジェネレーティブAIは、デスクトップアプリケーションを含むさまざまなコンピュータ利用タスクを解決するために利用されています。
最先端のシステムは、主要なベンチマークの精度の向上にのみ焦点を絞っている。
しかしながら、これらのシステムは、通常、人間が完了するのに数分しかかからないタスクに対して、非常に高いエンドツーエンドのレイテンシ(例えば、数十分)のために、事実上使用不可能である。
この原因を解明し,コンピュータエージェントの今後の発展を導くため,コンピュータ利用AIのフラッグシップベンチマークであるOSWorld上でのコンピュータ利用エージェントの時間的パフォーマンスに関する最初の研究を行う。
エージェントはタスクの完了により多くのステップを使用するので、各ステップはタスクの開始時にステップよりも3倍の時間を要する可能性がある。
次に、OSWorld-HumanというオリジナルのOSWorldデータセットを手動でアノテートしたバージョンを構築します。
我々は、OSWorld-Humanを用いて、その効率性について16のエージェントを評価し、OSWorld上の最高のエージェントでさえ、必要以上に1.4-2.7倍のステップを要すことを発見した。
関連論文リスト
- OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文 参考訳(メタデータ) (2025-08-06T14:33:45Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - HCAST: Human-Calibrated Autonomy Software Tasks [1.5287939112540956]
HCASTは189の機械学習エンジニアリング、サイバーセキュリティ、ソフトウェアエンジニアリング、一般的な推論タスクのベンチマークである。
HCASTタスクは1分から8時間以上かかると見積もっている。
我々は、フロンティア基礎モデルに基づいて構築されたAIエージェントの成功率を評価する。
論文 参考訳(メタデータ) (2025-03-21T17:54:01Z) - STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.24814828303163]
STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文 参考訳(メタデータ) (2025-03-16T14:53:43Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。
最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。
これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-02-12T07:29:22Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。