論文の概要: Behind EvoMap: Characterizing a Self-Evolving Agent-to-Agent Collaboration Network
- arxiv url: http://arxiv.org/abs/2605.25815v2
- Date: Tue, 26 May 2026 04:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.171339
- Title: Behind EvoMap: Characterizing a Self-Evolving Agent-to-Agent Collaboration Network
- Title(参考訳): Behind EvoMap: 自己進化型エージェントとエージェントのコラボレーションネットワークを特徴付ける
- Authors: Qiming Ye, Peixain Zhang, Yupeng He, Zifan Peng, Gareth Tyson,
- Abstract要約: 本稿では,A2AコラボレーションネットワークであるEvoMapについて,大規模な実証的研究を行った。
スケーラブルな成長を優先する設計選択が、再利用性、進化性、監査性にトレードオフをもたらすことを示す。
- 参考スコア(独自算出の注目度): 8.625548289662596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent-to-Agent (A2A) networks enable autonomous AI agents to collaborate by sharing reusable problem-solving instructions. However, how these decentralized ecosystems operate in practice remains largely unexplored. We present the first large-scale empirical study of EvoMap, a prominent A2A collaboration network. By analyzing over 1.5M assets and 128K agents, we show how design choices that prioritize scalable growth introduce trade-offs in reusability, evolution, and auditability. First, EvoMap's credit economy rewards agents for publishing valuable assets. Although this design encourages participation at scale, rewards are tied primarily to publication rather than adoption. This leads agents to mass-produce assets to accumulate credits. As a result, 98% of assets are never reused, while rewards become highly concentrated among a small fraction of agents. Second, EvoMap employs an algorithm (referred to as GDI) to score and rank the quality of these shared assets. We demonstrate that this scoring system is flawed: rather than measuring objective performance, an asset's rank is heavily dictated by unverified, self-reported metadata (e.g., claimed lines of code modified). This allows agents to trivially manipulate their asset's scores. Finally, EvoMap relies on agents to provide local execution logs as evidence that uploaded assets function correctly. Because these validations are not independently verified, over 84% of approved assets bypass quality checks using vacuous tests (e.g., `console.log`). Our findings show that future A2A collaboration networks cannot rely on unverified self-reporting alone. Scalable collaboration requires mechanisms that balance open participation with verifiable execution and trustworthy evaluation.
- Abstract(参考訳): Agent-to-Agent(A2A)ネットワークは、再利用可能な問題解決命令を共有することで、自律的なAIエージェントのコラボレーションを可能にする。
しかし、これらの分散された生態系が実際にどのように機能するかは、まだ明らかにされていない。
本稿では,A2AコラボレーションネットワークであるEvoMapについて,大規模な実証的研究を行った。
1.5億以上の資産と128万のエージェントを分析して、スケーラブルな成長を優先する設計選択が、再利用性、進化性、監査性においてトレードオフをもたらすことを示す。
まず、EvoMapの信用経済は、貴重な資産を発行するエージェントに報酬を与える。
このデザインは大規模な参加を奨励するが、報酬は主に採用ではなく出版に結びついている。
これにより、エージェントは信用を蓄積するために大量生産される資産を誘導する。
その結果、資産の98%は再利用されることはないが、報酬は少数のエージェントに非常に集中するようになる。
第2に、EvoMapは(GDIと呼ばれる)アルゴリズムを使用して、これらの共有資産の品質を評価・ランク付けする。
客観的なパフォーマンスを測定するのではなく、アセットのランクは、検証されていない自己報告されたメタデータ(例えば、要求されたコード行の変更)によって決定される。
これにより、エージェントは自分の資産のスコアを自明に操作できる。
最後に、EvoMapは、アップロードされたアセットが正しく機能する証拠としてローカル実行ログを提供するエージェントに依存している。
これらの検証は独立に検証されていないため、承認された資産の84%以上が空きテスト(例: `console.log`)を使って品質チェックをバイパスしている。
今後のA2Aコラボレーションネットワークは、未確認の自己申告のみに頼ることはできない。
スケーラブルなコラボレーションには、オープンな参加と検証可能な実行と信頼できる評価のバランスをとるメカニズムが必要です。
関連論文リスト
- FIKA-Bench: From Fine-grained Recognition to Fine-Grained Knowledge Acquisition [54.31138496553705]
日常生活におけるきめ細かい認識は、しばしばクローズドブックの分類問題ではない。
既存のベンチマークは主に視覚的認識を評価しており、このアクティブな外部知識獲得能力は過小評価されている。
そこでは,システムが外部の証拠を探し,検証し,利用し,オープンエンドのきめ細かい認識質問に答えなければならない,きめ細かな知識獲得について検討する。
論文 参考訳(メタデータ) (2026-05-13T08:49:51Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? [10.248746359119625]
EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
論文 参考訳(メタデータ) (2026-03-11T14:07:16Z) - CREDIT: Certified Ownership Verification of Deep Neural Networks Against Model Extraction Attacks [54.04030169323115]
我々は、モデル抽出攻撃(MEA)に対する認証された所有権検証であるCREDITを紹介する。
DNNモデル間の類似性を定量化し、実用的な検証しきい値を提案し、このしきい値に基づいてオーナシップ検証を行うための厳密な理論的保証を提供する。
我々は、さまざまなドメインやタスクにまたがるいくつかの主流データセットに対するアプローチを広範囲に評価し、最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2026-02-23T23:36:25Z) - SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents [45.71333459905404]
SmartSnapは、受動的でポストホックな検証から、エージェント自身による積極的な自己検証へのパラダイムシフトである。
両ミッションで設計された新しいタイプのエージェントである「自己検証エージェント」を導入し、タスクを完了し、検証された証拠でその達成を証明した。
モデルファミリとスケールにわたるモバイルタスクの実験は、SmartSnapパラダイムによって、スケーラブルなLLM駆動エージェントのトレーニングが可能になることを実証しています。
論文 参考訳(メタデータ) (2025-12-26T14:51:39Z) - EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards [52.42920996842378]
本稿では,1つのバックボーンモデルから2つの協調エージェントをインスタンス化する自己進化型フレームワークEvoLMMを提案する。
この動的なフィードバックは、情報的クエリの生成と構造化推論の洗練の両方を促進する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/EvoLMMで公開されています。
論文 参考訳(メタデータ) (2025-11-20T18:59:54Z) - Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Credit Assignment and Efficient Exploration based on Influence Scope in Multi-agent Reinforcement Learning [2.8111817372725785]
スパース・リワードシナリオにおける協調エージェントの訓練は、マルチエージェント強化学習(MARL)に重大な課題をもたらす
本研究では,個々のエージェントの影響を受けうる状態の次元/属性の特定の値を取ることで,エージェントのスコープ(ISA)が状態に与える影響を計算するアルゴリズムを提案する。
エージェントの行動と状態属性の相互依存は、各エージェントの信用割り当てを計算し、各エージェントの探索空間を除くために使用される。
論文 参考訳(メタデータ) (2025-05-13T14:49:26Z) - Explainable AI for Fraud Detection: An Attention-Based Ensemble of CNNs, GNNs, and A Confidence-Driven Gating Mechanism [5.486205584465161]
本研究は,通常の分類プロセスに2つの余分な層を追加することにより,CCF検出のための新たな積み重ねに基づくアプローチを提案する。
注意層では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)のソフトアウトプットを、依存重み付け平均化(DOWA)演算子を用いて組み合わせる。
信頼層では,どのアグリゲーション(DOWAまたはIOWA)でも,メタラーナーへのフィードの不確実性が低いかを選択する。
3つのデータセットに対する実験により,提案手法は高精度かつ堅牢な一般化を実現し,CCF検出に有効であることが示された。
論文 参考訳(メタデータ) (2024-10-01T09:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。