論文の概要: MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
- arxiv url: http://arxiv.org/abs/2510.19423v1
- Date: Wed, 22 Oct 2025 09:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.535341
- Title: MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration
- Title(参考訳): MSC-Bench: マルチサーバツールオーケストレーションのための厳格なベンチマーク
- Authors: Jia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai,
- Abstract要約: MSC-Benchは、LLMエージェントによるマルチホップ、エンドツーエンドのツールオーケストレーションを評価するための大規模なベンチマークである。
これは「等式集合」を通じて基底真理を構築することでギャップに対処し、F1スコアのような客観的なメトリクスを可能にする。
シングルツールオーケストレーションから複雑なクロスサーバ計画、スコープ外要求に対する堅牢性まで、エージェント機能を体系的にテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MSC-Bench, a large-scale benchmark for evaluating multi-hop, end-to-end tool orchestration by LLM agents in a hierarchical Model-Context Protocol (MCP) ecosystem. Existing benchmarks often evaluate tools in isolation, ignoring challenges such as functional overlap and cross-server orchestration, leading to overly optimistic assessments. MSC-Bench addresses these gaps by constructing ground truth through 'equal function sets', allowing objective metrics such as F1 score and reducing the dependency on LLM-as-a-judge evaluation. Organized as a five-level curriculum, it systematically tests agent capabilities from single-tool orchestration to complex cross-server planning, and robustness to out-of-scope requests. Experiments reveal that rigid hierarchies can hinder performance without co-designed strategies, and even state-of-the-art agents exhibit systemic weaknesses in robustness. MSC-Bench provides a diagnostic framework to expose these limitations and guide the development of more capable and efficient tool-using agents. The benchmark and resources are publicly available at https://github.com/snooow1029/MSC_Bench.
- Abstract(参考訳): 階層型モデルコンテキストプロトコル(MCP)エコシステムにおいて,LLMエージェントによるマルチホップ・エンドツーエンドツールオーケストレーションを評価するための大規模ベンチマークであるMSC-Benchを紹介する。
既存のベンチマークはしばしばツールを独立して評価し、機能の重複やサーバ間のオーケストレーションといった課題を無視し、過度に楽観的な評価をもたらす。
MSC-Benchは、F1スコアのような客観的なメトリクスを許容し、LLM-as-a-judge評価への依存性を減らすことで、これらのギャップに対処する。
5段階のカリキュラムとして編成され、シングルツールオーケストレーションから複雑なクロスサーバ計画、スコープ外要求に対する堅牢性まで、エージェント機能を体系的にテストする。
実験の結果、厳格な階層構造は共同設計の戦略なしでパフォーマンスを阻害し、最先端のエージェントでさえ頑丈さの体系的な弱点を示すことがわかった。
MSC-Benchはこれらの制限を公開し、より有能で効率的なツール使用エージェントの開発を導くための診断フレームワークを提供する。
ベンチマークとリソースはhttps://github.com/snooow1029/MSC_Benchで公開されている。
関連論文リスト
- ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems [31.4909149697414]
Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) の重要な制限を緩和する
最近の研究はエージェントRAGシステムを通じてこのパラダイムを拡張しており、LLMは複雑なクエリを反復的に計画、検索、推論するエージェントとして機能する。
本稿では,エージェントRAGにおける中間タスクの微粒化評価のための機能指向ベンチマークであるRAGCap-Benchを提案する。
論文 参考訳(メタデータ) (2025-10-15T04:13:00Z) - MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments [6.12783571098263]
MEMTRACKは、マルチプラットフォームエージェント環境における長期記憶と状態追跡を評価するために設計されたベンチマークである。
それぞれのベンチマークインスタンスは、ノイズ、競合、相互参照情報を備えた、時系列的にプラットフォームインターリーブされたタイムラインを提供する。
ベンチマークでは、取得、選択、競合解決などのメモリ機能をテストしています。
論文 参考訳(メタデータ) (2025-10-01T18:34:03Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Gradientsys: A Multi-Agent LLM Scheduler with ReAct Orchestration [4.66888457790348]
次世代マルチエージェントスケジューリングフレームワークであるGradientsysを紹介する。
型付きモデルコンテキストプロトコル(MCP)とReActベースの動的計画ループを使用して、さまざまなAIエージェントを協調する。
GAIA General-Asistantベンチマークの実験によると、Gradientsysはレイテンシの低減とAPIコストの低減により、タスクの成功率の向上を実現している。
論文 参考訳(メタデータ) (2025-07-09T03:40:56Z) - The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - Benchmarking LLMs' Swarm intelligence [51.648605206159125]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
論文 参考訳(メタデータ) (2025-05-07T12:32:01Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - SCE: Scalable Consistency Ensembles Make Blackbox Large Language Model Generation More Reliable [4.953092503184905]
大規模言語モデル(LLM)は目覚ましい性能を示したが、その多様な長所と短所により、全てのタスクにおいて単一のLLMが支配的になるのを防いでいる。
本研究は,一貫した出力を誘導することにより,LLMを効率的にアンサンブルするためのフレームワークであるSCE(Scalable Consistency Ensemble)を導入する。
論文 参考訳(メタデータ) (2025-03-13T20:54:28Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。