論文の概要: MCP-Flow: Facilitating LLM Agents to Master Real-World, Diverse and Scaling MCP Tools
- arxiv url: http://arxiv.org/abs/2510.24284v1
- Date: Tue, 28 Oct 2025 10:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.025409
- Title: MCP-Flow: Facilitating LLM Agents to Master Real-World, Diverse and Scaling MCP Tools
- Title(参考訳): MCP-Flow: LLMエージェントを実世界のマスタ、ディバース、スケーリングに活用する
- Authors: Wenhao Wang, Peizhi Niu, Zhao Xu, Zhaoyu Chen, Jian Du, Yaxin Du, Xianghe Pang, Keduan Huang, Yanfeng Wang, Qiang Yan, Siheng Chen,
- Abstract要約: 大規模言語モデルは、複雑で現実的なタスクを実行するために、ますます外部ツールに依存しています。
既存のMSPリサーチは、少数のサーバーをカバーし、コストのかかる手作業によるキュレーションに依存し、トレーニングサポートが欠如している。
我々は大規模なサーバ発見、データ合成、モデルトレーニングのための自動Webエージェント駆動パイプラインであるMPP-Flowを紹介した。
- 参考スコア(独自算出の注目度): 58.5971352939562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly rely on external tools to perform complex, realistic tasks, yet their ability to utilize the rapidly expanding Model Contextual Protocol (MCP) ecosystem remains limited. Existing MCP research covers few servers, depends on costly manual curation, and lacks training support, hindering progress toward real-world deployment. To overcome these limitations, we introduce MCP-Flow, an automated web-agent-driven pipeline for large-scale server discovery, data synthesis, and model training. MCP-Flow collects and filters data from 1166 servers and 11536 tools, producing 68733 high-quality instruction-function call pairs and 6439 trajectories, far exceeding prior work in scale and diversity. Extensive experiments demonstrate MCP-Flow's effectiveness in driving superior MCP tool selection, function-call generation, and enhanced agentic task performance. MCP-Flow thus provides a scalable foundation for advancing LLM agents' proficiency in real-world MCP environments. MCP-Flow is publicly available at \href{https://github.com/wwh0411/MCP-Flow}{https://github.com/wwh0411/MCP-Flow}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑で現実的なタスクを実行するために、ますます外部ツールに依存していますが、急速に拡大するModel Contextual Protocol(MCP)エコシステムを利用する能力は限定的です。
既存のMSPリサーチは、少数のサーバをカバーし、コストのかかる手作業によるキュレーションに依存し、トレーニングサポートが欠如し、現実のデプロイメントへの進歩を妨げる。
これらの制限を克服するために、大規模なサーバ発見、データ合成、モデルトレーニングのための自動Webエージェント駆動パイプラインであるMPP-Flowを紹介します。
MCP-Flowは、1166のサーバと11536のツールからデータを収集、フィルタリングし、68733の高品質な命令関数コールペアと6439のトラジェクトリを生成し、スケールと多様性におけるこれまでの作業よりもはるかに上回っている。
大規模な実験では、優れたMPPツールの選択、関数呼び出し生成、エージェントタスク性能の向上にMCP-Flowが有効であることを実証している。
したがって、MPP-Flowは、現実のMPP環境でLLMエージェントの能力を向上させるためのスケーラブルな基盤を提供する。
MCP-Flow は \href{https://github.com/wwh0411/MCP-Flow}{https://github.com/wwh0411/MCP-Flow} で公開されている。
関連論文リスト
- MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.6512259539754]
MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。
MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
論文 参考訳(メタデータ) (2025-08-28T05:58:57Z) - LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries [38.56775962026289]
提案するLiveMCP-101は,リアルタイムクエリを慎重にキュレートした101のベンチマークである。
実験により、フロンティアのLLMでさえ60%未満の成功率を達成することが示された。
LiveMCP-101は現実世界のエージェント能力を評価するための厳格な標準を設定している。
論文 参考訳(メタデータ) (2025-08-21T17:55:54Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Beyond Formal Semantics for Capabilities and Skills: Model Context Protocol in Manufacturing [0.12289361708127876]
最近導入されたモデルコンテキストプロトコル(MCP)に基づく代替手法を提案する。
MCPは、LLMベースのエージェントによって直接消費可能な標準化されたインタフェースを通じて機能を公開できる。
論文 参考訳(メタデータ) (2025-06-12T13:02:16Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - MLOps: A Step Forward to Enterprise Machine Learning [0.0]
この研究は、MLOps、そのメリット、困難、進化、および重要な基盤技術に関する詳細なレビューを提示する。
MLOpsワークフローは、モデルとデータ探索とデプロイメントの両方に必要なさまざまなツールとともに、詳細に説明されている。
この記事では、さまざまな成熟度の高い自動パイプラインを使用して、MLプロジェクトのエンドツーエンド生産にも光を当てます。
論文 参考訳(メタデータ) (2023-05-27T20:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。