論文の概要: MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents
- arxiv url: http://arxiv.org/abs/2506.07672v1
- Date: Mon, 09 Jun 2025 11:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.134979
- Title: MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents
- Title(参考訳): MCPWorld: API、GUI、ハイブリッドコンピュータ使用エージェントのための統一ベンチマークテストベッド
- Authors: Yunhe Yan, Shihe Wang, Jiajun Du, Yexuan Yang, Yuxuan Shan, Qichen Qiu, Xianqing Jia, Xinge Wang, Xin Yuan, Xu Han, Mao Qin, Yinxiao Chen, Chen Peng, Shangguang Wang, Mengwei Xu,
- Abstract要約: MCPWorldは、API、GUI、API-GUIハイブリッドエージェントのための最初の自動CUAテストベッドである。
MCPWorldの鍵となる原則は、ソースコードが利用可能で必要に応じて修正・再コンパイルできる「ホワイトボックスアプリ」を使うことである。
MCPWorldには201の精巧なキュレーションと注釈付きユーザタスクが含まれており、多彩なユースケースと難易度をカバーしている。
- 参考スコア(独自算出の注目度): 14.736516215309768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: (M)LLM-powered computer use agents (CUA) are emerging as a transformative technique to automate human-computer interaction. However, existing CUA benchmarks predominantly target GUI agents, whose evaluation methods are susceptible to UI changes and ignore function interactions exposed by application APIs, e.g., Model Context Protocol (MCP). To this end, we propose MCPWorld, the first automatic CUA testbed for API, GUI, and API-GUI hybrid agents. A key principle of MCPWorld is the use of "white-box apps", i.e., those with source code availability and can be revised/re-compiled as needed (e.g., adding MCP support), with two notable advantages: (1) It greatly broadens the design space of CUA, such as what and how the app features to be exposed/extracted as CUA-callable APIs. (2) It allows MCPWorld to programmatically verify task completion by directly monitoring application behavior through techniques like dynamic code instrumentation, offering robust, accurate CUA evaluation decoupled from specific agent implementations or UI states. Currently, MCPWorld includes 201 well curated and annotated user tasks, covering diversified use cases and difficulty levels. MCPWorld is also fully containerized with GPU acceleration support for flexible adoption on different OS/hardware environments. Our preliminary experiments, using a representative LLM-powered CUA framework, achieve 75.12% task completion accuracy, simultaneously providing initial evidence on the practical effectiveness of agent automation leveraging MCP. Overall, we anticipate MCPWorld to facilitate and standardize the benchmarking of next-generation computer use agents that can leverage rich external tools. Our code and dataset are publicly available at https://github.com/SAAgent/MCPWorld.
- Abstract(参考訳): (M)LLMを利用したコンピュータ利用エージェント(CUA)は人間とコンピュータのインタラクションを自動化するための変換技術として登場している。
しかし、既存のCUAベンチマークは主にGUIエージェントをターゲットにしており、その評価手法はUIの変更の影響を受けやすい。
そこで本研究では,API,GUI,API-GUIハイブリッドエージェントを対象とした初の自動CUAテストベッドであるMPPWorldを提案する。
MCPWorldのキーとなる原則は、ソースコードが利用可能なもの(例えば、MPPのサポートを追加して)を必要に応じて修正/再コンパイルできるもの(White-box Apps)を使用することである。
2) MCPWorldは動的コードインスツルメンテーションのような手法でアプリケーションの動作を直接監視し、特定のエージェントの実装やUI状態から切り離された堅牢で正確なCUA評価を提供することで、タスク完了をプログラム的に検証することができる。
現在、MPPWorldには201の精巧なキュレーションと注釈付きユーザタスクが含まれており、多彩なユースケースと難易度をカバーしている。
MCPWorldはGPUアクセラレーションをサポートして,さまざまなOS/ハードウェア環境へのフレキシブルな採用も可能だ。
代表的LCMを用いたCUAフレームワークを用いた予備実験は,75.12%のタスク完了精度を実現し,MPPを利用したエージェント自動化の実践的効果を実証した。
全体として、我々は、リッチな外部ツールを活用できる次世代コンピュータ利用エージェントのベンチマークを容易にし、標準化するために、MPPWorldを期待する。
私たちのコードとデータセットはhttps://github.com/SAAgent/MCPWorldで公開されています。
関連論文リスト
- InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。
ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文 参考訳(メタデータ) (2025-05-16T05:43:27Z) - UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。
我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。
我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文 参考訳(メタデータ) (2025-04-20T13:04:43Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。