論文の概要: GEMMAS: Graph-based Evaluation Metrics for Multi Agent Systems
- arxiv url: http://arxiv.org/abs/2507.13190v1
- Date: Thu, 17 Jul 2025 14:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.54531
- Title: GEMMAS: Graph-based Evaluation Metrics for Multi Agent Systems
- Title(参考訳): GEMMAS:マルチエージェントシステムのためのグラフベースの評価指標
- Authors: Jisoo Lee, Raeyoung Chang, Dongwook Kwon, Harmanpreet Singh, Nikhil Verma,
- Abstract要約: 本稿では,エージェント間相互作用を有向非巡回グラフとしてモデル化することにより,内部協調プロセスを解析する,グラフに基づく評価フレームワークGEMMASを紹介する。
コラボレーションの質を捉えるために、エージェント間メッセージの意味的変動を測定するIDSと、冗長な推論経路を定量化する不必要パス比の2つのプロセスレベルメトリクスを提案する。
GEMMASを5つのベンチマークで評価し、GSM8K上では精度の差がわずか2.1%しかなく、IDSでは12.8%、UPRでは80%の違いがあり、内部コラボレーションのかなりのばらつきが明らかになった。
- 参考スコア(独自算出の注目度): 1.7825757481227436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-agent systems built on language models have shown strong performance on collaborative reasoning tasks. However, existing evaluations focus only on the correctness of the final output, overlooking how inefficient communication and poor coordination contribute to redundant reasoning and higher computational costs. We introduce GEMMAS, a graph-based evaluation framework that analyzes the internal collaboration process by modeling agent interactions as a directed acyclic graph. To capture collaboration quality, we propose two process-level metrics: Information Diversity Score (IDS) to measure semantic variation in inter-agent messages, and Unnecessary Path Ratio (UPR) to quantify redundant reasoning paths. We evaluate GEMMAS across five benchmarks and highlight results on GSM8K, where systems with only a 2.1% difference in accuracy differ by 12.8% in IDS and 80% in UPR, revealing substantial variation in internal collaboration. These findings demonstrate that outcome-only metrics are insufficient for evaluating multi-agent performance and highlight the importance of process-level diagnostics in designing more interpretable and resource-efficient collaborative AI systems.
- Abstract(参考訳): 言語モデル上に構築されたマルチエージェントシステムは,協調推論タスクにおいて高い性能を示した。
しかし、既存の評価では、非効率なコミュニケーションと不適切な協調が冗長な推論と高い計算コストにどのように寄与するかを見越して、最終的な出力の正しさにのみ焦点を当てている。
本稿では,エージェント間相互作用を有向非巡回グラフとしてモデル化することにより,内部協調プロセスを解析する,グラフに基づく評価フレームワークGEMMASを紹介する。
コラボレーションの質を捉えるために、エージェント間メッセージの意味的変動を測定するIDSと、冗長な推論経路を定量化する不必要パス比の2つのプロセスレベルメトリクスを提案する。
GEMMASを5つのベンチマークで評価し、GSM8K上では精度の差がわずか2.1%しかなく、IDSでは12.8%、UPRでは80%の違いがあり、内部コラボレーションのかなりのばらつきが明らかになった。
これらの結果は、結果のみのメトリクスがマルチエージェントのパフォーマンスを評価するには不十分であることを示し、より解釈可能でリソース効率の良い協調AIシステムの設計におけるプロセスレベルの診断の重要性を強調している。
関連論文リスト
- A Quality-Guided Mixture of Score-Fusion Experts Framework for Human Recognition [14.242680363313148]
全体バイオメトリック認識は、様々なバイオメトリック・モダリティを統合する難しいタスクである。
textbfQuality-guided textbfMixture of score-fusion textbfExperts (QME) について述べる。
本稿では,QE(Modality-specific Quality Estimator)とスコアトリプルト損失を用いた品質評価のための新しい擬似品質損失を導入し,測定性能を向上する。
論文 参考訳(メタデータ) (2025-07-31T18:00:01Z) - The Optimization Paradox in Clinical AI Multi-Agent Systems [13.177792688650971]
コンポーネントレベルの最適化とシステム全体のパフォーマンスの関係は、まだよく分かっていない。
この関係をMIMIC-CDMデータセットから2,400症例を用いて検討した。
マルチエージェントシステムは一般にシングルエージェントよりも優れているが、コンポーネント最適化またはベスト・オブ・ブリードシステムは優れたコンポーネントと優れたプロセスメトリクスは診断精度に優れていない(上位マルチエージェントシステムでは67.7%対77.4%)。
論文 参考訳(メタデータ) (2025-06-06T23:01:51Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。
最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。
ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文 参考訳(メタデータ) (2025-02-25T23:30:43Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Open-Domain Text Evaluation via Contrastive Distribution Methods [75.59039812868681]
本稿では,Contrastive Distribution Methodsと呼ばれるオープンドメインテキスト生成手法を提案する。
マルチターン対話におけるコヒーレンス評価と制御可能な生成におけるコヒーレンス評価の実験により,CDMの優位性は人間の判断と相関していることが示された。
論文 参考訳(メタデータ) (2023-06-20T20:37:54Z) - Quality-Based Conditional Processing in Multi-Biometrics: Application to
Sensor Interoperability [63.05238390013457]
2007年のバイオセキュリティ・マルチモーダル・アセスメント・キャンペーンにおいて,ATVS-UAM融合手法を品質ベースで評価し,評価を行った。
我々のアプローチは線形ロジスティック回帰に基づいており、融合したスコアはログライクな比率になる傾向にある。
その結果,提案手法はルールベースの核融合方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-24T12:11:22Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。