Fugu-MT 論文翻訳(概要): MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents

論文の概要: MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents

arxiv url: http://arxiv.org/abs/2506.07672v1
Date: Mon, 09 Jun 2025 11:50:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 21:10:47.134979
Title: MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents
Title（参考訳）: MCPWorld: API、GUI、ハイブリッドコンピュータ使用エージェントのための統一ベンチマークテストベッド
Authors: Yunhe Yan, Shihe Wang, Jiajun Du, Yexuan Yang, Yuxuan Shan, Qichen Qiu, Xianqing Jia, Xinge Wang, Xin Yuan, Xu Han, Mao Qin, Yinxiao Chen, Chen Peng, Shangguang Wang, Mengwei Xu,
Abstract要約: MCPWorldは、API、GUI、API-GUIハイブリッドエージェントのための最初の自動CUAテストベッドである。 MCPWorldの鍵となる原則は、ソースコードが利用可能で必要に応じて修正・再コンパイルできる「ホワイトボックスアプリ」を使うことである。 MCPWorldには201の精巧なキュレーションと注釈付きユーザタスクが含まれており、多彩なユースケースと難易度をカバーしている。
参考スコア（独自算出の注目度）: 14.736516215309768
License: http://creativecommons.org/licenses/by/4.0/
Abstract: (M)LLM-powered computer use agents (CUA) are emerging as a transformative technique to automate human-computer interaction. However, existing CUA benchmarks predominantly target GUI agents, whose evaluation methods are susceptible to UI changes and ignore function interactions exposed by application APIs, e.g., Model Context Protocol (MCP). To this end, we propose MCPWorld, the first automatic CUA testbed for API, GUI, and API-GUI hybrid agents. A key principle of MCPWorld is the use of "white-box apps", i.e., those with source code availability and can be revised/re-compiled as needed (e.g., adding MCP support), with two notable advantages: (1) It greatly broadens the design space of CUA, such as what and how the app features to be exposed/extracted as CUA-callable APIs. (2) It allows MCPWorld to programmatically verify task completion by directly monitoring application behavior through techniques like dynamic code instrumentation, offering robust, accurate CUA evaluation decoupled from specific agent implementations or UI states. Currently, MCPWorld includes 201 well curated and annotated user tasks, covering diversified use cases and difficulty levels. MCPWorld is also fully containerized with GPU acceleration support for flexible adoption on different OS/hardware environments. Our preliminary experiments, using a representative LLM-powered CUA framework, achieve 75.12% task completion accuracy, simultaneously providing initial evidence on the practical effectiveness of agent automation leveraging MCP. Overall, we anticipate MCPWorld to facilitate and standardize the benchmarking of next-generation computer use agents that can leverage rich external tools. Our code and dataset are publicly available at https://github.com/SAAgent/MCPWorld.
Abstract（参考訳）: (M)LLMを利用したコンピュータ利用エージェント(CUA)は人間とコンピュータのインタラクションを自動化するための変換技術として登場している。しかし、既存のCUAベンチマークは主にGUIエージェントをターゲットにしており、その評価手法はUIの変更の影響を受けやすい。そこで本研究では,API,GUI,API-GUIハイブリッドエージェントを対象とした初の自動CUAテストベッドであるMPPWorldを提案する。 MCPWorldのキーとなる原則は、ソースコードが利用可能なもの(例えば、MPPのサポートを追加して)を必要に応じて修正/再コンパイルできるもの(White-box Apps)を使用することである。 2) MCPWorldは動的コードインスツルメンテーションのような手法でアプリケーションの動作を直接監視し、特定のエージェントの実装やUI状態から切り離された堅牢で正確なCUA評価を提供することで、タスク完了をプログラム的に検証することができる。現在、MPPWorldには201の精巧なキュレーションと注釈付きユーザタスクが含まれており、多彩なユースケースと難易度をカバーしている。 MCPWorldはGPUアクセラレーションをサポートして,さまざまなOS/ハードウェア環境へのフレキシブルな採用も可能だ。代表的LCMを用いたCUAフレームワークを用いた予備実験は,75.12%のタスク完了精度を実現し,MPPを利用したエージェント自動化の実践的効果を実証した。全体として、我々は、リッチな外部ツールを活用できる次世代コンピュータ利用エージェントのベンチマークを容易にし、標準化するために、MPPWorldを期待する。私たちのコードとデータセットはhttps://github.com/SAAgent/MCPWorldで公開されています。

関連論文リスト

Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文参考訳（メタデータ） (2026-02-19T13:48:29Z)
OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents [49.34040731113563]
我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。 OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
論文参考訳（メタデータ） (2025-10-28T15:56:36Z)
Code2MCP: Transforming Code Repositories into MCP Services [53.234097255779744]
Model Context Protocol (MCP)は、大規模言語モデルがどのようにツールを使用するかの標準を作成することを目的としている。私たちは、GitHubリポジトリを機能的なMSPサービスに自動的に変換するエージェントベースのフレームワークであるCode2MCPを紹介します。 Code2MCPはバイオインフォマティクス、数学、流体力学などの科学分野におけるオープンソースの計算ライブラリの変換に成功している。
論文参考訳（メタデータ） (2025-09-07T06:13:25Z)
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。 LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文参考訳（メタデータ） (2025-08-03T14:36:42Z)
InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文参考訳（メタデータ） (2025-05-16T05:43:27Z)
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents [0.0]
OSUniverseは、高度なGUIナビゲーションAIエージェントのための複雑なマルチモーダルデスクトップ指向タスクのベンチマークである。タスクを、基本的な精度のクリックからマルチステップ、ディクスタリティ、精度、エージェントからの明確な思考といった複雑さのレベルに分割する。ベンチマークは手動で評価できるが、平均エラー率2%未満の自動検証機構も導入する。
論文参考訳（メタデータ） (2025-05-06T14:29:47Z)
UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文参考訳（メタデータ） (2025-04-20T13:04:43Z)
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-20T05:41:55Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。