論文の概要: MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability
- arxiv url: http://arxiv.org/abs/2601.00481v1
- Date: Thu, 01 Jan 2026 21:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.467131
- Title: MAESTRO: Multi-Agent Evaluation Suite for Testing, Reliability, and Observability
- Title(参考訳): MAESTRO: テスト、信頼性、可観測性のためのマルチエージェント評価スイート
- Authors: Tie Ma, Yixi Chen, Vaastav Anand, Alessandro Cornacchia, Amândio R. Faustino, Guanheng Liu, Shan Zhang, Hongbin Luo, Suhaib A. Fahmy, Zafar A. Qazi, Marco Canini,
- Abstract要約: MAESTRO は LLM ベースの MAS のテスト,信頼性,可観測性の評価スイートである。
一般的なエージェント・フレームワークとインタラクション・パターンにまたがる12の代表的なMASを用いてMAESTROをインスタンス化する。
ケーススタディでは、MASの実行は構造的に安定するが、時間的に変動し、実行と実行のばらつきがかなり大きいことが示されている。
- 参考スコア(独自算出の注目度): 37.727210168531364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MAESTRO, an evaluation suite for the testing, reliability, and observability of LLM-based MAS. MAESTRO standardizes MAS configuration and execution through a unified interface, supports integrating both native and third-party MAS via a repository of examples and lightweight adapters, and exports framework-agnostic execution traces together with system-level signals (e.g., latency, cost, and failures). We instantiate MAESTRO with 12 representative MAS spanning popular agentic frameworks and interaction patterns, and conduct controlled experiments across repeated runs, backend models, and tool configurations. Our case studies show that MAS executions can be structurally stable yet temporally variable, leading to substantial run-to-run variance in performance and reliability. We further find that MAS architecture is the dominant driver of resource profiles, reproducibility, and cost-latency-accuracy trade-off, often outweighing changes in backend models or tool settings. Overall, MAESTRO enables systematic evaluation and provides empirical guidance for designing and optimizing agentic systems.
- Abstract(参考訳): LLMに基づくMASの試験・信頼性・可観測性評価スイートであるMAESTROについて述べる。
MAESTROは、統一インターフェースを通じてMAS設定と実行を標準化し、サンプルと軽量アダプタのリポジトリを通じてネイティブとサードパーティのMASの統合をサポートし、フレームワークに依存しない実行トレースとシステムレベルの信号(例えば、レイテンシ、コスト、障害)をエクスポートする。
一般的なエージェントフレームワークとインタラクションパターンにまたがる12の代表的なMASでMAESTROをインスタンス化し、繰り返し実行、バックエンドモデル、ツール構成で制御された実験を実行します。
ケーススタディでは、MASの実行は構造的に安定するが、時間的に変動し、性能と信頼性にかなりのばらつきをもたらすことが示されている。
さらに、MASアーキテクチャは、リソースプロファイル、再現性、コスト-レイテンシ-正確性のトレードオフの主要な要因であり、バックエンドモデルやツール設定の変更よりも優れていることが分かっています。
全体として、MAESTROは体系的な評価を可能にし、エージェントシステムを設計し最適化するための実証的なガイダンスを提供する。
関連論文リスト
- Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - Case-Aware LLM-as-a-Judge Evaluation for Enterprise-Scale RAG Systems [0.0]
企業向けマルチターンRAGシステムのためのケースアウェア LLM-as-a-Judge 評価フレームワークを提案する。
このフレームワークは、検索品質を分離する8つの運用上の基準を使用して、各ターンを評価し、忠実度、答えユーティリティ、精度の整合性、ケース/ワークフローアライメントを判定する。
論文 参考訳(メタデータ) (2026-02-23T21:37:06Z) - MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time [32.22206915939924]
テスト時に動的適応を可能にする新しいマルチエージェントフレームワークであるMASFlyを紹介する。
MASFlyは適応実行のために、専用のWatcherエージェントがシステム動作を監視するエクスペリエンス誘導型の監視メカニズムを組み込んでいる。
実験の結果、MASFlyは最先端のパフォーマンスを実現しており、特にTravelPlannerベンチマークでは61.7%の成功率である。
論文 参考訳(メタデータ) (2026-02-14T08:38:13Z) - Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis [2.903627214446312]
本稿では,マルチエージェント LLM フレームワークを基本次元に沿って体系的に比較するためのアーキテクチャ分類法を提案する。
我々は,既存のベンチマークを標準化された実行パイプラインの下で統合する統合評価スイートを開発した。
以上の結果から,フレームワークレベルの設計選択だけでレイテンシが100倍以上向上し,計画精度が最大30%向上し,調整成功率が90%以上から30%以下に低下する可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-03T05:37:56Z) - ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.7657839292775]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。
ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。
その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-12-04T18:59:52Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration [0.0]
MSC-Benchは、LLMエージェントによるマルチホップ、エンドツーエンドのツールオーケストレーションを評価するための大規模なベンチマークである。
これは「等式集合」を通じて基底真理を構築することでギャップに対処し、F1スコアのような客観的なメトリクスを可能にする。
シングルツールオーケストレーションから複雑なクロスサーバ計画、スコープ外要求に対する堅牢性まで、エージェント機能を体系的にテストする。
論文 参考訳(メタデータ) (2025-10-22T09:45:11Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time [35.31371938688921]
テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、大規模言語モデル(LLM)の推論能力を高める。
本稿では,エキスパートアクティベーションを検索空間の制御可能な次元に高めるTTS戦略であるDynamic Experts Search (DES)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:49:10Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - HEAS: Hierarchical Evolutionary Agent Simulation Framework for Cross-Scale Modeling and Multi-Objective Search [4.807104001943257]
階層シミュレーションエージェント(Hierarchical Simulation Agent, HEAS)は、階層化されたエージェントベースのモデリングを進化的最適化とトーナメント評価で統合するPythonフレームワークである。
HEASは、共有コンテキストを読み書きする決定論的レイヤにスケジュールされた軽量プロセス(ストリーム)の階層としてモデルを表現する。
compact APIとCLIは、シングルオブジェクトとマルチオブジェクトの進化をシミュレートし、最適化し、評価します。
論文 参考訳(メタデータ) (2025-08-21T13:35:46Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。