論文の概要: MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation
- arxiv url: http://arxiv.org/abs/2606.02470v1
- Date: Mon, 01 Jun 2026 16:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.508612
- Title: MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation
- Title(参考訳): MCP-Persona:環境シミュレーションによる実世界のパーソナルアプリケーション上でのLCMエージェントのベンチマーク
- Authors: Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen,
- Abstract要約: MCP-Personaは,実世界向けパーソナライズされたMPPツール上でのエージェント性能を評価するために設計された,最初のベンチマークである。
MCP-Personaには、RedditやXiaohongshu(Rednote)のようなソーシャルメディアプラットフォームから、Lark(Feishu)やSlackといったエンタープライズコラボレーションスイートまで、さまざまな用途のアプリケーションが含まれている。
さまざまな最先端(SOTA)エージェントに関する実験は、パーソナライズされたツールの使用に対する大きな苦労を実証し、これらの制限を特定し、対処する上で、ベンチマークが重要な役割を担っていることを強調した。
- 参考スコア(独自算出の注目度): 55.14253918630382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Model Context Protocol (MCP) has emerged as a transformative standard for connecting large language models (LLMs) with external data sources and tools, and has been rapidly adopted across personal applications and development platforms. However, existing benchmarks predominantly focus on generic information-seeking tools and fail to capture the practical challenges posed by personal social applications, where tools interact with individual accounts or local databases. To bridge this critical gap, we introduce MCP-Persona, the first benchmark specifically designed for evaluating agent performance on real-world, personalized MCP tools. MCP-Persona encompasses a diverse set of widely-used applications, ranging from social media platforms like Reddit and Xiaohongshu (Rednote) to enterprise collaboration suites such as Lark (Feishu) and Slack. Our extensive experiments on various state-of-the-art (SOTA) agents demonstrate their significant struggles with personalized tool use, thereby highlighting the benchmark's crucial role in identifying and addressing these limitations. MCP-Persona is publicly available at https://github.com/wwh0411/MCP-Persona}{https://github.com/wwh0411/MCP-Persona.
- Abstract(参考訳): Model Context Protocol(MCP)は、大きな言語モデル(LLM)を外部データソースやツールと接続するための変換標準として登場し、パーソナルアプリケーションや開発プラットフォームで急速に採用されている。
しかし、既存のベンチマークは主に汎用的な情報検索ツールに焦点を当てており、個々のアカウントやローカルデータベースと対話するツールによって引き起こされる現実的な課題を捉えていない。
この重要なギャップを埋めるために、実世界のパーソナライズされたMPPツール上でエージェントパフォーマンスを評価するために特別に設計された最初のベンチマークであるMPP-Personaを紹介する。
MCP-Personaには、RedditやXiaohongshu(Rednote)のようなソーシャルメディアプラットフォームから、Lark(Feishu)やSlackといったエンタープライズコラボレーションスイートまで、さまざまな用途のアプリケーションが含まれている。
さまざまな最先端(SOTA)エージェントに関する広範な実験は、パーソナライズされたツールの使用に対する大きな苦労を実証し、これらの制限を特定し対処する上で、ベンチマークが重要な役割を担っていることを強調した。
MCP-Personaはhttps://github.com/wwh0411/MCP-Persona}{https://github.com/wwh0411/MCP-Personaで公開されている。
関連論文リスト
- MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。
これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。
モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文 参考訳(メタデータ) (2026-01-31T23:19:39Z) - MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - HumanMCP: A Human-Like Query Dataset for Evaluating MCP Tool Retrieval Performance [0.0]
Model Context Protocol (MCP) サーバには数千のオープンソース標準化ツールが含まれている。
既存のデータセットとベンチマークには、現実的なヒューマンライクなユーザクエリが欠けている。
本稿では,多様で高品質なユーザクエリを特徴とする,最初の大規模MPPデータセットを提案する。
論文 参考訳(メタデータ) (2025-12-18T01:27:48Z) - OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents [49.34040731113563]
我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。
厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。
OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-10-28T15:56:36Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。