論文の概要: OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2510.24563v1
- Date: Tue, 28 Oct 2025 15:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.263196
- Title: OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents
- Title(参考訳): OSWorld-MCP: コンピュータ利用エージェントにおけるMPPツール呼び出しのベンチマーク
- Authors: Hongrui Jia, Jitong Liao, Xi Zhang, Haiyang Xu, Tianbao Xie, Chaoya Jiang, Ming Yan, Si Liu, Wei Ye, Fei Huang,
- Abstract要約: 我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。
厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。
OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
- 参考スコア(独自算出の注目度): 49.34040731113563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With advances in decision-making and reasoning capabilities, multimodal agents show strong potential in computer application scenarios. Past evaluations have mainly assessed GUI interaction skills, while tool invocation abilities, such as those enabled by the Model Context Protocol (MCP), have been largely overlooked. Comparing agents with integrated tool invocation to those evaluated only on GUI interaction is inherently unfair. We present OSWorld-MCP, the first comprehensive and fair benchmark for assessing computer-use agents' tool invocation, GUI operation, and decision-making abilities in a real-world environment. We design a novel automated code-generation pipeline to create tools and combine them with a curated selection from existing tools. Rigorous manual validation yields 158 high-quality tools (covering 7 common applications), each verified for correct functionality, practical applicability, and versatility. Extensive evaluations of state-of-the-art multimodal agents on OSWorld-MCP show that MCP tools generally improve task success rates (e.g., from 8.3% to 20.4% for OpenAI o3 at 15 steps, from 40.1% to 43.3% for Claude 4 Sonnet at 50 steps), underscoring the importance of assessing tool invocation capabilities. However, even the strongest models have relatively low tool invocation rates, Only 36.3%, indicating room for improvement and highlighting the benchmark's challenge. By explicitly measuring MCP tool usage skills, OSWorld-MCP deepens understanding of multimodal agents and sets a new standard for evaluating performance in complex, tool-assisted environments. Our code, environment, and data are publicly available at https://osworld-mcp.github.io.
- Abstract(参考訳): 意思決定と推論能力の進歩により、マルチモーダルエージェントは、コンピュータアプリケーションのシナリオにおいて強力なポテンシャルを示す。
過去の評価は主にGUIのインタラクションスキルを評価してきたが、Model Context Protocol(MCP)によって実現されたツールの起動能力は概ね見過ごされている。
統合ツール呼び出しを持つエージェントとGUIインタラクションでのみ評価されるエージェントを比較することは本質的に不公平である。
実環境におけるコンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。
私たちは、ツールを作成し、既存のツールからキュレートされた選択と組み合わせるために、新しいコード生成パイプラインを設計します。
厳密な手作業による検証は158の高品質なツール(7つの一般的なアプリケーションを含む)をもたらし、それぞれが正しい機能、実用的な適用性、汎用性を検証している。
OSWorld-MCPにおける最先端のマルチモーダルエージェントの広範囲な評価は、MPPツールが一般的にタスク成功率(例えば、OpenAI o3が15ステップで8.3%から20.4%、Claude 4 Sonnetが40.1%から43.3%)を改善し、ツール呼び出し能力を評価することの重要性を強調していることを示している。
しかし、最強のモデルでさえ、ツールの実行率が比較的低く、36.3%しかなく、改善の余地があり、ベンチマークの課題を強調している。
MCPツールの使用スキルを明示的に測定することで、OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定します。
私たちのコード、環境、データはhttps://osworld-mcp.github.io.comで公開されています。
関連論文リスト
- TheMCPCompany: Creating General-purpose Agents with Task-specific Tools [12.249551019598442]
TheMCPCompanyは、様々な現実世界のサービスと対話するタスクにおいて、ツールコールエージェントを評価するためのベンチマークである。
また、各タスクに手動でアノテートされた接地木ツールも提供します。
全体として、我々の研究は、最も高度な推論モデルは、より単純な環境でツールを見つけるのに効果的であるが、複雑なエンタープライズ環境をナビゲートするのに深刻な苦労をしていることを示している。
論文 参考訳(メタデータ) (2025-10-22T06:42:01Z) - MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use [72.53177559476704]
我々はエージェントツールの使用を評価するための実世界のベンチマークであるMCPVerseを紹介する。
MCPVerseは550以上の実世界の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成する。
私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークしました。
論文 参考訳(メタデータ) (2025-08-22T09:47:53Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [33.250579401886206]
本稿では,モデルコンテキストプロトコル(MCP)フレームワークにおいて,LLM(Large Language Models)の性能を評価するために設計された最初の総合ベンチマークであるMPP-RADARを紹介する。
MCP-RADARは、数学的推論、Web検索、Eメール、カレンダー、ファイル管理、端末操作の6つの領域にまたがる507のタスクからなる挑戦的なデータセットを備えている。
主観的な人的評価やバイナリ成功のメトリクスに依存する従来のベンチマークとは異なり、MPP-RADARは複数のタスク領域にわたる客観的な定量測定を採用する。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。