論文の概要: Evaluating Tool Cloning in Agentic-AI Ecosystems
- arxiv url: http://arxiv.org/abs/2605.09817v2
- Date: Sun, 17 May 2026 00:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.24074
- Title: Evaluating Tool Cloning in Agentic-AI Ecosystems
- Title(参考訳): エージェントAIエコシステムにおけるツールクローンの評価
- Authors: Taein Kim, David Jiang, Yuepeng Hu, Yuqi Jia, Neil Gong,
- Abstract要約: この研究は、エージェントAIエコシステムにおけるツールクローンの大規模測定としては初めてのものである。
7,508のモデルコンテキストプロトコル(MCP)リポジトリ、87,564の抽出ツール、12,447のツールを備えた1,353のスキルレポジトリ、合計8,861のリポジトリ、100,011のツールエントリをカバーしている。
- 参考スコア(独自算出の注目度): 7.733750839250171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent tools are becoming a core interface through which LLM agents access external data, services, and execution environments. As these tools are distributed through public marketplaces, raw tool counts may substantially overstate ecosystem diversity if many repositories are cloned, lightly modified, or derived from shared templates. Such hidden duplication can contaminate benchmark splits, propagate vulnerable implementations, bias measurements of tool-use generalization, and raise provenance, attribution, and intellectual-property concerns. We present, to our knowledge, the first large-scale measurement study of tool cloning in agentic AI ecosystems. We curate a unified dataset from multiple public platforms, covering 7,508 Model Context Protocol (MCP) repositories with 87,564 extracted tools and 1,353 Skills repositories with 12,447 tools, for a total of 8,861 repositories and 100,011 tool entries. To measure implementation-level duplication, we build a repository-level auditing pipeline using complementary lexical and fuzzy-structural similarity metrics, and compute pairwise similarity across MCP-to-MCP, Skills-to-Skills, and MCP-to-Skills repository pairs. We further manually verify 100 sampled pairs per MCP and Skills ecosystem across similarity-score buckets to calibrate how often high similarity reflects true code cloning. Our analysis shows that cloning is not an isolated artifact: high-similarity regions appear across comparison settings, and 60\% of high-Jaccard candidates and 85\% of high-ssdeep candidates in the MCP ecosystem are manually verified as clones. These results indicate that tool cloning is a pervasive and severe source of hidden duplication in agent-tool ecosystems. They further suggest that agent-tool datasets and benchmarks should account for repository provenance and implementation similarity when measuring tool diversity or constructing evaluation splits.
- Abstract(参考訳): エージェントツールは、LLMエージェントが外部データ、サービス、実行環境にアクセスする中核的なインターフェースになりつつある。
これらのツールは公開マーケットプレースを通じて配布されるため、多くのリポジトリがクローン化され、軽量に修正され、あるいは共有テンプレートから派生された場合、生ツールの数は生態系の多様性を大幅に上回る可能性がある。
このような隠された重複は、ベンチマークの分割を汚染し、脆弱な実装を伝播し、ツール使用の一般化のバイアス測定を行い、証明、帰属、知的利益の懸念を高める。
我々の知る限り、エージェントAIエコシステムにおけるツールクローンの大規模測定は初めてである。
87,564の抽出ツールを備えた7,508のモデルコンテキストプロトコル(MCP)レポジトリと,12,447のツールを備えた1,353のスキルレポジトリを,合計8,861のリポジトリと100,011のツールエントリでカバーしています。
実装レベルの重複を測定するため,相補的語彙およびファジィ構造類似度を用いたリポジトリレベルの監査パイプラインを構築し,MCP-to-MCP,Skills-to-Skills,MSP-to-Skillsリポジトリのペア間のペアワイズ類似度を算出する。
さらに、MPPとSkillsのエコシステム毎に100個のサンプルペアを手動で検証し、高い類似度が真のコードのクローンを反映しているかを校正する。
高相似性領域は比較設定にまたがって出現し, 高相似性領域は60 %, 高相似性領域は85 %であり, MCP エコシステムにおける高相似性領域はクローンとして手作業で検証されている。
以上の結果から,ツールクローニングはエージェントツール生態系における隠れ複製の広範かつ深刻な原因であることが示唆された。
さらに彼らは、ツールの多様性を測定したり、評価の分割を構築する際に、エージェントツールのデータセットとベンチマークがリポジトリの出所と実装の類似性を考慮すべきであることを示唆している。
関連論文リスト
- ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation [7.907933839674293]
大規模言語モデル(LLM)は、エージェント探索またはフルコンテキスト生成を通じて大規模で動作する有能なコーディングアシスタントとして登場した。
ReCUBEは,LLMが残されているすべてのソースファイル,依存関係仕様,ドキュメントをコンテキストの唯一のソースとして使用して,実世界のリポジトリ内でマスクされたファイルを再構築するベンチマークである。
本稿では,エージェントフレームワークに統合可能な依存グラフベースのツールセットであるCaller-Centric Exploration (CCE)ツールキットを提案する。
論文 参考訳(メタデータ) (2026-03-26T08:04:15Z) - Beyond Quantity: Trajectory Diversity Scaling for Code Agents [51.71414642763219]
Trajectory Diversity Scalingは、コードエージェントのためのデータ合成フレームワークである。
TDScalingは、(1)実際のサービスの論理的依存関係をキャプチャするBusiness Clusterメカニズム、(2)軌道コヒーレンスを強制するブループリント駆動のマルチエージェントパラダイム、(3)ロングテールシナリオを指向する適応的な進化メカニズムの4つの革新を統合しています。
論文 参考訳(メタデータ) (2026-02-03T07:43:03Z) - ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents [31.77712252239516]
逆誘導探索法はツール使用エージェントの強化に強い可能性を示している。
ツール使用環境におけるPRMの体系的かつ信頼性の高い評価ベンチマークが欠如している。
ツール使用エージェントのPRM評価に特化して設計された大規模ベンチマークであるToolPRMBenchを紹介する。
論文 参考訳(メタデータ) (2026-01-18T07:48:36Z) - A Large Scale Empirical Analysis on the Adherence Gap between Standards and Tools in SBOM [54.38424417079265]
ソフトウェア・ビル・オブ・マテリアル(Software Bill of Materials, SBOM)は、ソフトウェア情報を整理する機械読み取り可能なアーティファクトである。
標準に従って、組織はSBOMの生成と利用のためのツールを開発した。
本稿では,我々の自動評価フレームワークであるSAPを用いて,接着ギャップの大規模2段階解析を行った。
論文 参考訳(メタデータ) (2026-01-09T08:26:05Z) - ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.10274552177096]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。
このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。
構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-09T04:11:16Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - MCP-Zero: Active Tool Discovery for Autonomous LLM Agents [13.005899769943442]
ツール発見の自律性を LLM 自体に復元する,アクティブエージェントフレームワークである MCP-Zero を紹介する。
すべての利用可能なツールで圧倒的なモデルを使用する代わりに、CP-Zeroはエージェントが能率ギャップを積極的に識別し、特定のツールをオンデマンドで要求することを可能にする。
公式の Model-Context-Protocol リポジトリから 308 の MCP サーバと 2,797 ツールの包括的なデータセットである MCP-tools を構築した。
論文 参考訳(メタデータ) (2025-06-01T15:48:53Z) - T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-26T09:50:55Z) - Teaching Code LLMs to Use Autocompletion Tools in Repository-Level Code Generation [15.461189659020187]
コード大言語モデル(LLM)は、リポジトリレベルの依存関係に対する認識の欠如により、リポジトリレベルのコード生成の制限に直面します。
ToolGenは、自動補完ツールをコードLLM生成プロセスに統合し、これらの依存関係に対処するアプローチです。
ToolGenは、Trigger InsertionとModel Fine-tuning(Offline)とツール統合コード生成(Online)の2つの主要なフェーズで構成されている。
論文 参考訳(メタデータ) (2024-01-12T06:03:56Z) - Repo2Vec: A Comprehensive Embedding Approach for Determining Repository
Similarity [2.095199622772379]
Repo2Vecは、リポジトリを分散ベクタとして表現するための包括的な埋め込みアプローチである。
当社の手法をGitHubから2つの実際のデータセットで評価し、1013リポジトリを組み合わせて検討した。
論文 参考訳(メタデータ) (2021-07-11T18:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。