論文の概要: ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox
- arxiv url: http://arxiv.org/abs/2605.10787v2
- Date: Wed, 20 May 2026 01:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.004124
- Title: ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox
- Title(参考訳): ComplexMCP:動的・相互依存・大規模ツールサンドボックスにおけるLCM剤の評価
- Authors: Yuanyang Li, Xue Yang, Longyue Wang, Weihua Luo, Hongyang Chen,
- Abstract要約: $textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
- 参考スコア(独自算出の注目度): 61.862814740220806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LLM agents are proficient at calling isolated APIs but struggle with the "last mile" of commercial software automation. In real-world scenarios, tools are not independent; they are atomic, interdependent, and prone to environmental noise. We introduce $\textbf{ComplexMCP}$, a benchmark designed to evaluate agents in these rigorous conditions. Built on the Model Context Protocol (MCP), $\textbf{ComplexMCP}$ provides over 300 meticulously tested tools derived from 7 stateful sandboxes, ranging from office suites to financial systems. Unlike existing datasets, our benchmark utilizes a seed-driven architecture to simulate dynamic environment states and unpredictable API failures, ensuring a deterministic yet diverse evaluation. We evaluate various LLMs across full-context and RAG paradigms, revealing a stark performance gap: even top-tier models fail to exceed a 60% success rate, far trailing human performance 90%. Granular trajectory analysis identifies three fundamental bottlenecks: (1) $\textbf{tool retrieval saturation}$ as action spaces scale; (2) $\textbf{over-confidence}$, where agents skip essential environment verifications; and (3) $\textbf{strategic defeatism}$, a tendency to rationalize failure rather than pursuing recovery. These findings underscore the insufficiency of current agents for interdependent workflows, positioning $\textbf{ComplexMCP}$ as a critical testbed for the next generation of resilient autonomous systems.
- Abstract(参考訳): 現在のLLMエージェントは、分離されたAPIを呼び出すのに熟練しているが、商用ソフトウェア自動化の"ラストマイル"に苦労している。
現実のシナリオでは、ツールは独立したものではなく、原子性であり、相互依存的であり、環境騒音に起因している。
このような厳密な条件下でエージェントを評価するために設計されたベンチマークである$\textbf{complexMCP}$を紹介する。
Model Context Protocol (MCP)上に構築された$\textbf{ComplexMCP}$は、オフィススイートから金融システムまで、7つのステートフルなサンドボックスから派生した300以上の精巧にテストされたツールを提供する。
既存のデータセットとは異なり、我々のベンチマークでは、シード駆動アーキテクチャを使用して動的環境状態と予測不可能なAPI障害をシミュレートし、決定論的だが多様な評価を保証する。
トップレベルモデルでさえ、成功率の60%を超えず、人間のパフォーマンスの90%をはるかに上回っている。
1$\textbf{tool search saturation}$をアクション空間スケールとして、(2)$\textbf{over-confidence}$をエージェントが必須環境検証を省略する、(3)$\textbf{strategic defeatism}$という3つの基本的なボトルネックを特定する。
これらの結果は、次世代のレジリエントな自律システムにとって重要なテストベッドとして$\textbf{complexMCP}$を位置づけた、相互依存ワークフローに対する現在のエージェントの不足を浮き彫りにした。
関連論文リスト
- Toward Autonomous SOC Operations: End-to-End LLM Framework for Threat Detection, Query Generation, and Resolution in Security Operations [1.7102338932907293]
セキュリティ・オペレーション・センター(SOC)は運用上の課題に直面している。
これらの課題は、脅威量の増加、異種SIEMプラットフォーム、時間を要する手作業によるトリアージなどである。
本稿では,アンサンブルに基づく検出,構文制約付きクエリ生成,検索強化型解決支援を統合したエンドツーエンドの脅威管理フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-30T02:06:46Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks [4.6880826836662814]
検証可能なトレーニングデータを合成するロジック駆動フレームワークである textbfLOGIGEN を紹介する。
2$-Benchでは、LOGIGEN-32B(RL)がtextbf79.5%の成功率を獲得し、ベースモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-28T08:35:30Z) - MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - Managing the Stochastic: Foundations of Learning in Neuro-Symbolic Systems for Software Engineering [0.27195102129094995]
AIコーディングエージェントに対する現在のアプローチは、大規模言語モデルとエージェント自体の境界を曖昧にしている。
本稿では, LLM が環境環境の構成要素として扱われるように制御境界を設定することを提案する。
論文 参考訳(メタデータ) (2025-12-18T15:28:21Z) - MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration [0.0]
MSC-Benchは、LLMエージェントによるマルチホップ、エンドツーエンドのツールオーケストレーションを評価するための大規模なベンチマークである。
これは「等式集合」を通じて基底真理を構築することでギャップに対処し、F1スコアのような客観的なメトリクスを可能にする。
シングルツールオーケストレーションから複雑なクロスサーバ計画、スコープ外要求に対する堅牢性まで、エージェント機能を体系的にテストする。
論文 参考訳(メタデータ) (2025-10-22T09:45:11Z) - MSCoRe: A Benchmark for Multi-Stage Collaborative Reasoning in LLM Agents [7.339769470891067]
MSCoReは、自動車、医薬品、エレクトロニクス、エネルギー分野のシナリオにまたがる126696ドメイン固有のQAインスタンスからなる新しいベンチマークである。
商用モデルはすべてのタスクやシナリオで最高に機能するが、ROUGEのスコアの顕著な差は、単純なタスクと複雑なタスクの間にある。
MSCoReは、LLMエージェントの多段階推論を評価し改善するための、コミュニティにとって価値のある新しいリソースを提供する。
論文 参考訳(メタデータ) (2025-09-22T11:36:16Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。