論文の概要: Rethinking Failure Attribution in Multi-Agent Systems: A Multi-Perspective Benchmark and Evaluation
- arxiv url: http://arxiv.org/abs/2603.25001v1
- Date: Thu, 26 Mar 2026 04:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.086081
- Title: Rethinking Failure Attribution in Multi-Agent Systems: A Multi-Perspective Benchmark and Evaluation
- Title(参考訳): マルチエージェントシステムにおける障害属性の再考:マルチパースペクティブベンチマークと評価
- Authors: Yeonjun In, Mehrab Tanjim, Jayakumar Subramanian, Sungchul Kim, Uttaran Bhattacharya, Wonjoong Kim, Sangwu Park, Somdeb Sarkhel, Chanyoung Park,
- Abstract要約: マルチエージェントシステム(MAS)は、複雑なエージェント間の依存関係とあいまいな実行軌跡により、複数のプラウジブルな属性を持つことが多い。
我々は、マルチパースペクティブな視点からMAS障害属性を再検討し、マルチパースペクティブな障害属性を提案する。
我々は,MASにおけるマルチパースペクティブな障害属性のための最初のベンチマークであるMP-Benchと,このパラダイムに合わせた新しい評価プロトコルを紹介する。
- 参考スコア(独自算出の注目度): 29.37899008277516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Failure attribution is essential for diagnosing and improving multi-agent systems (MAS), yet existing benchmarks and methods largely assume a single deterministic root cause for each failure. In practice, MAS failures often admit multiple plausible attributions due to complex inter-agent dependencies and ambiguous execution trajectories. We revisit MAS failure attribution from a multi-perspective standpoint and propose multi-perspective failure attribution, a practical paradigm that explicitly accounts for attribution ambiguity. To support this setting, we introduce MP-Bench, the first benchmark designed for multi-perspective failure attribution in MAS, along with a new evaluation protocol tailored to this paradigm. Through extensive experiments, we find that prior conclusions suggesting LLMs struggle with failure attribution are largely driven by limitations in existing benchmark designs. Our results highlight the necessity of multi-perspective benchmarks and evaluation protocols for realistic and reliable MAS debugging.
- Abstract(参考訳): 故障の帰属はマルチエージェントシステム(MAS)の診断と改善に不可欠であるが、既存のベンチマークや手法では、障害毎に単一の決定論的根本原因を前提としている。
実際には、MAS障害は複雑なエージェント間の依存関係とあいまいな実行軌跡によって、複数のプラウジブルな属性を許容することが多い。
我々はマルチパースペクティブな視点からMAS障害の帰属を再考し、多パースペクティブな失敗の帰属(多パースペクティブな失敗の帰属)を提案する。
この設定をサポートするために,MASにおけるマルチパースペクティブ障害属性のための最初のベンチマークであるMP-Benchと,このパラダイムに合わせた新しい評価プロトコルを導入する。
広範囲にわたる実験の結果,LCMが失敗の原因となる原因は,既存のベンチマーク設計の限界に大きく左右されることが示唆された。
本結果は,マルチパースペクティブなベンチマークと評価プロトコルが,現実的かつ信頼性の高いMASデバッギングに必要であることを示す。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems [59.20800753428596]
マルチエージェントシステム(MAS)におけるプロセス検証の系統的研究であるMAS-ProVeを提案する。
本研究は3つの検証パラダイム(LLM-as-a-Judge、報酬モデル、プロセス報酬モデル)にまたがる。
プロセスレベルの検証は、常に性能を改善しておらず、しばしば高いばらつきを示す。
論文 参考訳(メタデータ) (2026-02-03T03:30:36Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Where Did It All Go Wrong? A Hierarchical Look into Multi-Agent Error Attribution [0.7226144684379191]
本稿では,階層的文脈表現,客観分析に基づく評価,コンセンサス投票を組み合わせた新しいアルゴリズムECHOを提案する。
実験の結果,ECHOは様々なマルチエージェントインタラクションシナリオにおいて既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-10-06T15:07:13Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。