論文の概要: Evaluation Report on MCP Servers
- arxiv url: http://arxiv.org/abs/2504.11094v1
- Date: Tue, 15 Apr 2025 11:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:05:32.562081
- Title: Evaluation Report on MCP Servers
- Title(参考訳): MCPサーバの評価報告
- Authors: Zhiling Luo, Xiaorong Shi, Xuanrui Lin, Jinyang Gao,
- Abstract要約: 我々は,MPPサーバの有効性と効率を評価するため,MPPBenchと呼ばれる評価フレームワークを提案する。
実験の結果,最も有効なMPPであるBing Web Searchの精度は64%であった。
この研究は、最適化されたMPPの実装に関するさらなる調査の道を開くもので、最終的にはAI駆動のアプリケーションとデータ検索ソリューションの改善につながります。
- 参考スコア(独自算出の注目度): 5.54913974337283
- License:
- Abstract: With the rise of LLMs, a large number of Model Context Protocol (MCP) services have emerged since the end of 2024. However, the effectiveness and efficiency of MCP servers have not been well studied. To study these questions, we propose an evaluation framework, called MCPBench. We selected several widely used MCP server and conducted an experimental evaluation on their accuracy, time, and token usage. Our experiments showed that the most effective MCP, Bing Web Search, achieved an accuracy of 64%. Importantly, we found that the accuracy of MCP servers can be substantially enhanced by involving declarative interface. This research paves the way for further investigations into optimized MCP implementations, ultimately leading to better AI-driven applications and data retrieval solutions.
- Abstract(参考訳): LLMの台頭に伴い、2024年の終わりから多くのモデルコンテキストプロトコル(MCP)サービスが登場した。
しかし、MPPサーバの有効性と効率性は十分に研究されていない。
そこで本研究では,MPPBenchと呼ばれる評価フレームワークを提案する。
広く使われているMSPサーバを複数選択し,その正確性,時間,トークン使用量について実験的に評価した。
実験の結果,最も有効なMPPであるBing Web Searchの精度は64%であった。
重要なことに、宣言型インタフェースを組み込むことで、MPPサーバの精度を大幅に向上できることがわかった。
この研究は、最適化されたMPPの実装に関するさらなる調査の道を開くもので、最終的にはAI駆動のアプリケーションとデータ検索ソリューションの改善につながります。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - MBL-CPDP: A Multi-objective Bilevel Method for Cross-Project Defect Prediction via Automated Machine Learning [34.89241736003651]
クロスプロジェクト欠陥予測(CPDP)は、機械学習(ML)技術を活用して、特にプロジェクト固有のデータが不足しているソフトウェア欠陥を積極的に識別する。
本稿では,MBL-CPDPと呼ばれる多目的二段階最適化(MBLO)手法としてCPDPを定式化する。
これには、上層階、多目的最適化問題、下層階問題、高価な最適化問題という2つのネスト問題が含まれている。
論文 参考訳(メタデータ) (2024-11-10T15:17:15Z) - Data Selection via Optimal Control for Language Models [134.67665351539725]
本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。
PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。
PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
論文 参考訳(メタデータ) (2024-10-09T17:06:57Z) - Segment-Based Test Case Prioritization: A Multi-objective Approach [8.972346309150199]
TCP(Test Case Prioritization)は、目的関数を最大化する実行順序でテストケースをスケジュールするコスト効率の高いソリューションである。
進化的検索アルゴリズムと4つのカバレッジ基準を用いてUIテストケースを優先する多目的最適化手法を提案する。
提案手法は,APFD(Average Percentage of Faults Detected)とAPFD(APFD with Cost)において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-01T16:51:01Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision [40.984680166762345]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - Mixed Integer Programming for Time-Optimal Multi-Robot Coverage Path
Planning with Efficient Heuristics [5.710487978627656]
非重み付きおよび地形の時間最適マルチロボット被覆経路計画(MCPP)について検討する。
具体的には、MCPP から Min-Max Rooted Tree Cover (MMRTC) への削減に焦点を当てる。
MMRTCを最適に解くために,Mixed Programming(MIP)モデルを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:31:29Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - Self-Teaching Machines to Read and Comprehend with Large-Scale
Multi-Subject Question Answering Data [58.36305373100518]
主観的問合せデータが機械読解作業に有用かどうかは不明である。
大規模多目的多目的質問回答データセットであるExamQAを収集する。
我々は、Web検索エンジンが返す不完全でノイズの多いスニペットを、各質問応答インスタンスの関連するコンテキストとして使用し、弱いラベル付きMRCインスタンスに変換する。
論文 参考訳(メタデータ) (2021-02-01T23:18:58Z) - Improving the Performance of Stochastic Local Search for Maximum Vertex
Weight Clique Problem Using Programming by Optimization [21.407603070913588]
我々はMVWCPを解くための新しい、柔軟で高パラメトリックなフレームワークを開発した。
我々は、MVWCPを広範囲の顕著なベンチマークで解く上で、最先端の進歩を実現している。
論文 参考訳(メタデータ) (2020-02-27T04:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。