論文の概要: OS-MAP: How Far Can Computer-Using Agents Go in Breadth and Depth?
- arxiv url: http://arxiv.org/abs/2507.19132v1
- Date: Fri, 25 Jul 2025 10:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.916561
- Title: OS-MAP: How Far Can Computer-Using Agents Go in Breadth and Depth?
- Title(参考訳): OS-MAP: コンピューターのエージェントはどれくらいの深さで使えるのか?
- Authors: Xuetian Chen, Yinghao Chen, Xinfeng Yuan, Zhuo Peng, Lu Chen, Yuekeng Li, Zhoujia Zhang, Yingqian Huang, Leyan Huang, Jiaqing Liang, Tianbao Xie, Zhiyong Wu, Qiushi Sun, Biqing Qi, Bowen Zhou,
- Abstract要約: OS-MAPは、日々のコンピュータ利用自動化のためのベンチマークである。
15のアプリケーションにまたがる416の現実的なタスクを2つの重要な次元に沿って整理する。
必要なエージェントの自律性と一般化のレベルが異なる。
- 参考スコア(独自算出の注目度): 30.788287791669458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-using agents have shown strong potential to boost human productivity and enable new application forms across platforms. While recent advances have led to usable applications, existing benchmarks fail to account for the internal task heterogeneity and the corresponding agent capabilities, as well as their alignment with actual user demands-hindering both targeted capability development and the reliable transition of research progress into practical deployment. To bridge the gap, we present OS-MAP, a benchmark for daily computer-using automation that organizes its 416 realistic tasks across 15 applications along two key dimensions: a five-level taxonomy of automation and a generalization scope derived from a real-world user demand hierarchy. To enable fine-grained analysis of required capabilities and alignment with real-world scenarios, OS-MAP evaluates agents along two dimensions: automation level across a five-level taxonomy, and generalization scope across a demand hierarchy. This design captures varying levels of required agent autonomy and generalization, forming a performance-generalization evaluation matrix for structured and comprehensive assessment. Experiments show that even State-of-the-Art agents with VLM backbones struggle with higher-level tasks involving perception, reasoning, and coordination-highlighting the need for a deeper understanding of current strengths and limitations to drive the future progress in computer-using agents research and deployment. All code, environments, baselines, and data are publicly available at https://github.com/OS-Copilot/OS-Map.
- Abstract(参考訳): コンピュータ利用エージェントは、人間の生産性を高め、プラットフォーム全体で新しいアプリケーションフォームを可能にする強力な可能性を示している。
近年の進歩によってアプリケーションの利用が可能になったが、既存のベンチマークでは、内部タスクの不均一性と対応するエージェント能力、および実際のユーザ要求との整合性を考慮していない。
このギャップを埋めるために、OS-MAPは、15のアプリケーションにまたがる416の現実的なタスクを2つの重要な次元に沿って整理する、日々のコンピュータ利用自動化のためのベンチマークである。
OS-MAPは、必要な能力のきめ細かい分析と実世界のシナリオとの整合性を実現するために、エージェントを2次元に沿って評価する。
この設計は、必要なエージェントの自律性と一般化の様々なレベルを捉え、構造化された総合的な評価のための性能一般化評価行列を形成する。
実験によると、VLMのバックボーンを持つステート・オブ・ザ・アーツ(State-of-the-Art)エージェントでさえ、認知、推論、調整を含む高度なタスクに苦しむ。
すべてのコード、環境、ベースライン、データはhttps://github.com/OS-Copilot/OS-Mapで公開されている。
関連論文リスト
- OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文 参考訳(メタデータ) (2025-08-06T14:33:45Z) - State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。
しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。
本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文 参考訳(メタデータ) (2025-06-30T02:02:35Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - A Comprehensive Survey of Agents for Computer Use: Foundations, Challenges, and Future Directions [4.904229981437243]
コンピュータ利用エージェント(英: Agents for Computer Use, ACU)は、デジタルデバイス上で複雑なタスクを実行できるシステムである。
急速な進歩にもかかわらず、ACUはまだ日々の使用には成熟していない。
論文 参考訳(メタデータ) (2025-01-27T15:44:02Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation [51.27062359412488]
Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。
OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。
各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-26T19:27:17Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。