論文の概要: From Language to Action: Enhancing LLM Task Efficiency with Task-Aware MCP Server Recommendation
- arxiv url: http://arxiv.org/abs/2604.17234v1
- Date: Sun, 19 Apr 2026 03:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.407882
- Title: From Language to Action: Enhancing LLM Task Efficiency with Task-Aware MCP Server Recommendation
- Title(参考訳): 言語から行動へ:タスク対応MPPサーバレコメンデーションによるLLMタスク効率の向上
- Authors: Shiyu He, Zhiman Chen, Yuqi Zhao, Neng Zhang, Ran Mo, Yutao Ma,
- Abstract要約: モデルコンテキストプロトコル(MCP)エコシステムの急速な拡張により、大規模言語モデル(LLM)ベースのエージェントは、標準化されたインターフェースを介して、幅広い外部ツールにアクセスできるようになる。
既存の研究は主にMCPエコシステムの測定やツール起動機構の最適化に重点を置いている。
我々は,タスク指向型MPPサーバの推薦を,意味的関連性や工学的制約を共同で考慮した構造化された検索・格付け問題として定式化する。
- 参考スコア(独自算出の注目度): 2.790980367761591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of the model context protocol (MCP) ecosystem enables large language model (LLM)-based agents to access a wide range of external tools via a standardized interface. However, identifying appropriate MCP servers for a specific development task remains challenging. Existing studies primarily focus on measuring the MCP ecosystem or optimizing tool invocation mechanisms, while systematic recommendation frameworks and reproducible benchmarks for real-world development tasks remain largely unexplored. To address this limitation, we formulate task-oriented MCP server recommendation as a structured retrieval-and-ranking problem that jointly considers semantic relevance and engineering constraints. We first construct Task2MCP, a task-centered dataset that systematically associates taxonomy-grounded development tasks with curated MCP servers. This dataset provides structured supervision and a reproducible evaluation environment for research on MCP tool recommendations. Building on this dataset, we propose T2MRec, a task-to-MCP server recommendation model. It models semantic relevance and structural compatibility to construct an initial candidate set. Then it improves coverage and ranking quality through centroid-based candidate expansion and constrained LLM-based re-ranking. In addition, we design and implement an interactive MCP server recommendation agent prototype that operates in conversational environments to support dynamic decision-making. The agent assists developers in efficiently evaluating and integrating tools by providing recommended MCP servers together with usage guidelines.
- Abstract(参考訳): モデルコンテキストプロトコル(MCP)エコシステムの急速な拡張により、大規模言語モデル(LLM)ベースのエージェントは、標準化されたインターフェースを介して、幅広い外部ツールにアクセスできるようになる。
しかし、特定の開発タスクに適切なMPPサーバを特定することは依然として困難である。
既存の研究は主にMPPエコシステムの測定やツールの起動機構の最適化に重点を置いているが、実際の開発タスクのための体系的な推奨フレームワークや再現可能なベンチマークは未調査のままである。
この制限に対処するため,タスク指向のMPPサーバレコメンデーションを,意味的関連性と工学的制約を協調的に考慮した構造化された検索・格付け問題として定式化する。
まず,タスク中心のデータセットであるTask2MCPを構築し,分類学に基づく開発タスクをキュレートしたMPPサーバと体系的に関連付ける。
このデータセットは、MPPツールレコメンデーションの研究のための構造化された監視と再現可能な評価環境を提供する。
このデータセットに基づいて,タスク・ツー・MCPサーバレコメンデーションモデルであるT2MRecを提案する。
意味的関連性と構造的互換性をモデル化し、初期候補セットを構築する。
次に、Centroidベースの候補拡張と制約付きLLMベースの再ランク付けにより、カバレッジとランキング品質を改善する。
さらに,対話型MSPサーバ推薦エージェントのプロトタイプを設計,実装し,動的意思決定を支援する。
このエージェントは、推奨のMSPサーバと使用ガイドラインを提供することで、開発者のツールの効率的な評価と統合を支援する。
関連論文リスト
- Enhancing Model Context Protocol (MCP) with Context-Aware Server Collaboration [0.8594140167290097]
Model Context Protocol (MCP) は、エージェントが外部のツールやサービスと通信するためのフレームワークとして広く使われている。
本研究では,複雑なタスクに要するLCM呼び出し数を削減し,コンテキスト認識型MPPが従来のMPPより優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2026-01-06T21:34:08Z) - MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers [17.96465932881902]
我々は,実際のMPPサーバ上に構築された総合ベンチマークであるMPP-SafetyBenchを紹介する。
サーバ、ホスト、ユーザサイドにまたがる20のMPP攻撃タイプを統一した分類を組み込んでいる。
MCP-SafetyBench を用いて、主要なオープンソース LLM とクローズドソース LLM を体系的に評価する。
論文 参考訳(メタデータ) (2025-12-17T08:00:32Z) - LLM$\times$MapReduce-V3: Enabling Interactive In-Depth Survey Generation through a MCP-Driven Hierarchically Modular Agent System [55.33058620876928]
LLM x MapReduce-V3 は、長期サーベイ生成のための階層的モジュラーエージェントシステムである。
システムは研究の視点を捉えて包括的な骨格を生成し、それを詳細な調査へと発展させる。
人間の評価から,本システムはコンテンツ深度と長さの両方において,代表的ベースラインを超越していることが示された。
論文 参考訳(メタデータ) (2025-10-13T01:38:37Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.6512259539754]
MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。
MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
論文 参考訳(メタデータ) (2025-08-28T05:58:57Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - ScaleMCP: Dynamic and Auto-Synchronizing Model Context Protocol Tools for LLM Agents [1.7217813564531652]
ScaleMCPは、エージェントにMPPツールレトリバーを動的に装備する新しいツール選択アプローチである。
エージェントは、メモリにツールを追加する自律性に加えて、自動同期ツールストレージシステムパイプラインを提供する。
5000のファイナンシャルメトリックMCPサーバからなるデータセットを用いて総合評価を行い、ツール検索とエージェント起動性能を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-05-09T20:30:37Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。