論文の概要: MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability
- arxiv url: http://arxiv.org/abs/2601.00481v1
- Date: Thu, 01 Jan 2026 21:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.467131
- Title: MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability
- Title(参考訳): MAESTRO: テスト、信頼性、可観測性のためのマルチエージェント評価スイート
- Authors: Tie Ma, Yixi Chen, Vaastav Anand, Alessandro Cornacchia, Amândio R. Faustino, Guanheng Liu, Shan Zhang, Hongbin Luo, Suhaib A. Fahmy, Zafar A. Qazi, Marco Canini,
- Abstract要約: MAESTRO は LLM ベースの MAS のテスト,信頼性,可観測性の評価スイートである。
一般的なエージェント・フレームワークとインタラクション・パターンにまたがる12の代表的なMASを用いてMAESTROをインスタンス化する。
ケーススタディでは、MASの実行は構造的に安定するが、時間的に変動し、実行と実行のばらつきがかなり大きいことが示されている。
- 参考スコア(独自算出の注目度): 37.727210168531364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MAESTRO, an evaluation suite for the testing, reliability, and observability of LLM-based MAS. MAESTRO standardizes MAS configuration and execution through a unified interface, supports integrating both native and third-party MAS via a repository of examples and lightweight adapters, and exports framework-agnostic execution traces together with system-level signals (e.g., latency, cost, and failures). We instantiate MAESTRO with 12 representative MAS spanning popular agentic frameworks and interaction patterns, and conduct controlled experiments across repeated runs, backend models, and tool configurations. Our case studies show that MAS executions can be structurally stable yet temporally variable, leading to substantial run-to-run variance in performance and reliability. We further find that MAS architecture is the dominant driver of resource profiles, reproducibility, and cost-latency-accuracy trade-off, often outweighing changes in backend models or tool settings. Overall, MAESTRO enables systematic evaluation and provides empirical guidance for designing and optimizing agentic systems.
- Abstract(参考訳): LLMに基づくMASの試験・信頼性・可観測性評価スイートであるMAESTROについて述べる。
MAESTROは、統一インターフェースを通じてMAS設定と実行を標準化し、サンプルと軽量アダプタのリポジトリを通じてネイティブとサードパーティのMASの統合をサポートし、フレームワークに依存しない実行トレースとシステムレベルの信号(例えば、レイテンシ、コスト、障害)をエクスポートする。
一般的なエージェントフレームワークとインタラクションパターンにまたがる12の代表的なMASでMAESTROをインスタンス化し、繰り返し実行、バックエンドモデル、ツール構成で制御された実験を実行します。
ケーススタディでは、MASの実行は構造的に安定するが、時間的に変動し、性能と信頼性にかなりのばらつきをもたらすことが示されている。
さらに、MASアーキテクチャは、リソースプロファイル、再現性、コスト-レイテンシ-正確性のトレードオフの主要な要因であり、バックエンドモデルやツール設定の変更よりも優れていることが分かっています。
全体として、MAESTROは体系的な評価を可能にし、エージェントシステムを設計し最適化するための実証的なガイダンスを提供する。
関連論文リスト
- On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration [0.0]
MSC-Benchは、LLMエージェントによるマルチホップ、エンドツーエンドのツールオーケストレーションを評価するための大規模なベンチマークである。
これは「等式集合」を通じて基底真理を構築することでギャップに対処し、F1スコアのような客観的なメトリクスを可能にする。
シングルツールオーケストレーションから複雑なクロスサーバ計画、スコープ外要求に対する堅牢性まで、エージェント機能を体系的にテストする。
論文 参考訳(メタデータ) (2025-10-22T09:45:11Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time [35.31371938688921]
テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、大規模言語モデル(LLM)の推論能力を高める。
本稿では,エキスパートアクティベーションを検索空間の制御可能な次元に高めるTTS戦略であるDynamic Experts Search (DES)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:49:10Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - HEAS: Hierarchical Evolutionary Agent Simulation Framework for Cross-Scale Modeling and Multi-Objective Search [4.807104001943257]
階層シミュレーションエージェント(Hierarchical Simulation Agent, HEAS)は、階層化されたエージェントベースのモデリングを進化的最適化とトーナメント評価で統合するPythonフレームワークである。
HEASは、共有コンテキストを読み書きする決定論的レイヤにスケジュールされた軽量プロセス(ストリーム)の階層としてモデルを表現する。
compact APIとCLIは、シングルオブジェクトとマルチオブジェクトの進化をシミュレートし、最適化し、評価します。
論文 参考訳(メタデータ) (2025-08-21T13:35:46Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。