Fugu-MT 論文翻訳(概要): From Tool Orchestration to Code Execution: A Study of MCP Design Choices

論文の概要: From Tool Orchestration to Code Execution: A Study of MCP Design Choices

arxiv url: http://arxiv.org/abs/2602.15945v1
Date: Tue, 17 Feb 2026 19:03:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-19 15:58:30.405917
Title: From Tool Orchestration to Code Execution: A Study of MCP Design Choices
Title（参考訳）: ツールオーケストレーションからコード実行へ:MCP設計選択の検討
Authors: Yuval Felendler, Parth A. Gandhi, Idan Habler, Yuval Elovici, Asaf Shabtai,
Abstract要約: Model Context Protocols(MCP)は、エージェントシステムが異種実行環境を横断してツールを発見し、選択し、オーケストレーションするための統一されたプラットフォームを提供する。最近のMPP設計では、コード実行を第一級の機能として組み込んでおり、これはCode Execution MCP(CEMCP)と呼ばれるアプローチである。この研究は、コンテキスト結合(伝統的)とコンテキスト分離(CEMCP)のアーキテクチャ的区別を形式化し、それらの基本的なスケーラビリティのトレードオフを分析する。
参考スコア（独自算出の注目度）: 20.817336331051752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model Context Protocols (MCPs) provide a unified platform for agent systems to discover, select, and orchestrate tools across heterogeneous execution environments. As MCP-based systems scale to incorporate larger tool catalogs and multiple concurrently connected MCP servers, traditional tool-by-tool invocation increases coordination overhead, fragments state management, and limits support for wide-context operations. To address these scalability challenges, recent MCP designs have incorporated code execution as a first-class capability, an approach called Code Execution MCP (CE-MCP). This enables agents to consolidate complex workflows, such as SQL querying, file analysis, and multi-step data transformations, into a single program that executes within an isolated runtime environment. In this work, we formalize the architectural distinction between context-coupled (traditional) and context-decoupled (CE-MCP) models, analyzing their fundamental scalability trade-offs. Using the MCP-Bench framework across 10 representative servers, we empirically evaluate task behavior, tool utilization patterns, execution latency, and protocol efficiency as the scale of connected MCP servers and available tools increases, demonstrating that while CE-MCP significantly reduces token usage and execution latency, it introduces a vastly expanded attack surface. We address this security gap by applying the MAESTRO framework, identifying sixteen attack classes across five execution phases-including specific code execution threats such as exception-mediated code injection and unsafe capability synthesis. We validate these vulnerabilities through adversarial scenarios across multiple LLMs and propose a layered defense architecture comprising containerized sandboxing and semantic gating. Our findings provide a rigorous roadmap for balancing scalability and security in production-ready executable agent workflows.
Abstract（参考訳）: Model Context Protocols(MCP)は、エージェントシステムが異種実行環境を横断してツールを発見し、選択し、オーケストレーションするための統一されたプラットフォームを提供する。 MCPベースのシステムは、より大きなツールカタログと複数の並列接続されたMPPサーバを統合するためにスケールするので、従来のツール・バイ・ツールの呼び出しは、コーディネーションのオーバーヘッド、フラグメントの状態管理、広義の操作のサポートの制限を増大させる。これらのスケーラビリティの課題に対処するため、最近のMPP設計では、コード実行をファーストクラス機能として組み込んだコード実行(Code Execution MCP、CE-MCP)と呼ばれるアプローチが採用されている。これにより,SQLクエリやファイル解析,マルチステップのデータ変換といった複雑なワークフローを,独立した実行環境内で実行される単一のプログラムに統合することが可能になります。本研究では,コンテキスト結合型(従来型)とコンテキスト分離型(CE-MCP)のアーキテクチャ的区別を形式化し,その基本的なスケーラビリティのトレードオフを分析する。 10 つの代表サーバにわたる MCP-Bench フレームワークを用いることで,接続された MCP サーバのスケールや利用可能なツールの増加に伴い,タスク動作,ツール利用パターン,実行遅延,プロトコル効率を実証的に評価し,CE-MCP がトークン使用率と実行遅延を大幅に削減する一方で,攻撃面が大幅に拡大することを示した。我々は,MAESTROフレームワークを適用し,例外を介するコードインジェクションや安全でない機能合成など,特定のコード実行の脅威を含む5つの実行フェーズにわたる16の攻撃クラスを特定することで,このセキュリティギャップに対処する。コンテナ化されたサンドボックスとセマンティックゲーティングからなる層状防御アーキテクチャを提案する。我々の発見は、プロダクション対応の実行可能なエージェントワークフローでスケーラビリティとセキュリティのバランスをとるための厳格なロードマップを提供する。

関連論文リスト

Enhancing Model Context Protocol (MCP) with Context-Aware Server Collaboration [0.8594140167290097]
Model Context Protocol (MCP) は、エージェントが外部のツールやサービスと通信するためのフレームワークとして広く使われている。本研究では,複雑なタスクに要するLCM呼び出し数を削減し,コンテキスト認識型MPPが従来のMPPより優れていることを示す実験を行った。
論文参考訳（メタデータ） (2026-01-06T21:34:08Z)
Monadic Context Engineering [59.95390010097654]
本稿では,エージェント設計の正式な基盤を提供するために,モナディックコンテキストエンジニアリング(MCE)を紹介する。我々は、モナドがロバストなコンポジションをどのように実現し、Applicativesが並列実行に原則化された構造を提供し、また、モナドトランスフォーマーがこれらの機能の体系的なコンポジションをどのように可能にしているかを実証する。この階層化されたアプローチにより、開発者は、単純で独立した検証可能なコンポーネントから、複雑でレジリエントで効率的なAIエージェントを構築することができる。
論文参考訳（メタデータ） (2025-12-27T01:52:06Z)
MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers [17.96465932881902]
我々は,実際のMPPサーバ上に構築された総合ベンチマークであるMPP-SafetyBenchを紹介する。サーバ、ホスト、ユーザサイドにまたがる20のMPP攻撃タイプを統一した分類を組み込んでいる。 MCP-SafetyBench を用いて、主要なオープンソース LLM とクローズドソース LLM を体系的に評価する。
論文参考訳（メタデータ） (2025-12-17T08:00:32Z)
Z-Space: A Multi-Agent Tool Orchestration Framework for Enterprise-Grade LLM Automation [3.518072776386001]
本稿では,データ生成指向型マルチエージェント協調ツール実行フレームワークZ-Spaceを提案する。このフレームワークはElemeプラットフォームの技術部門にデプロイされており、大規模なテストデータ生成シナリオを提供している。生産データは、ツール推論における平均トークン消費を96.26%削減していることを示している。
論文参考訳（メタデータ） (2025-11-23T03:59:14Z)
MCP-Flow: Facilitating LLM Agents to Master Real-World, Diverse and Scaling MCP Tools [58.5971352939562]
大規模言語モデルは、複雑で現実的なタスクを実行するために、ますます外部ツールに依存しています。既存のMSPリサーチは、少数のサーバーをカバーし、コストのかかる手作業によるキュレーションに依存し、トレーニングサポートが欠如している。我々は大規模なサーバ発見、データ合成、モデルトレーニングのための自動Webエージェント駆動パイプラインであるMPP-Flowを紹介した。
論文参考訳（メタデータ） (2025-10-28T10:42:17Z)
MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents [14.507665159809138]
Model Context Protocol(MCP)は、大規模な言語モデル(LLM)エージェントが外部ツールを発見し、記述し、呼び出す方法を標準化する。我々は,MSB (MCP Security Benchmark) について述べる。MSB (MCP Security Benchmark) は,LCM エージェントが MCP 固有の攻撃にどの程度抵抗するかを測定する最初のエンドツーエンド評価スイートである。
論文参考訳（メタデータ） (2025-10-14T07:36:25Z)
Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
Generalizable End-to-End Tool-Use RL with Synthetic CodeGym [52.31172214690965]
エージェントRLのための多目的ツール環境を多種多様な、検証可能な、制御可能な、多目的ツール環境を合成するフレームワークであるCodeGymを紹介する。 CodeGymは、静的コーディングの問題を対話的な環境に書き換え、原子関数やロジックを呼び出し可能なツールに抽出する。さまざまなサイズのモデルとCodeGymでトレーニングされたチェーン・オブ・コンフィグレーションは、一貫したアウト・オブ・ディストリビューションの一般化性を示す。
論文参考訳（メタデータ） (2025-09-22T03:03:56Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.6512259539754]
MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。 MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
論文参考訳（メタデータ） (2025-08-28T05:58:57Z)
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。 LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文参考訳（メタデータ） (2025-08-03T14:36:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。