論文の概要: MASPrism: Lightweight Failure Attribution for Multi-Agent Systems Using Prefill-Stage Signals
- arxiv url: http://arxiv.org/abs/2605.07509v2
- Date: Thu, 14 May 2026 05:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.047634
- Title: MASPrism: Lightweight Failure Attribution for Multi-Agent Systems Using Prefill-Stage Signals
- Title(参考訳): MASPrism:プリフィル信号を用いたマルチエージェントシステムにおける軽量故障属性
- Authors: Yang Liu, Hongjiang Feng, Junsong Pu, Zhuangbin Chen,
- Abstract要約: 我々は,小言語モデル(SLM)のプリフィルステージ信号を用いて,障害帰属を行うフレームワークであるMASPrismを提案する。
MASPrismは各トレースを平均2.66秒で処理し、単一パスのプロンプトベースラインを6.69$times$スピードアップし、出力トークンをゼロにする。
- 参考スコア(独自算出の注目度): 5.326315684098781
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Failure attribution in LLM-based multi-agent systems aims to identify the steps that contribute to a failed execution. This task remains difficult because a single execution can contain many agent actions and tool calls, failure evidence can appear many steps after the original mistake, and existing methods often rely on costly agent workflows, replay, or training on synthetic failure logs. To address these challenges, we propose MASPrism, a lightweight framework that performs failure attribution using prefill-stage signals from a small language model (SLM). MASPrism first extracts token-level negative log-likelihood and attention weights during a prefill pass to identify symptom-like steps and earlier candidate sources, without decoding. It then reconstructs a focused diagnostic prompt and performs a second prefill pass to rank failure-source candidates. Using Qwen3-0.6B as the SLM, MASPrism achieves the best performance on three of the four evaluated subsets across Who&When and TRAIL, improving Top-1 accuracy on Who&When-HC by 33.41% over the best baseline. On TRAIL, MASPrism outperforms strong proprietary LLMs, including Gemini-2.5-Pro, with up to 89.50% relative improvement. MASPrism processes each trace in 2.66 seconds on average, achieving a 6.69$\times$ speedup over the single-pass prompting baseline, with zero output tokens. These results show that MASPrism provides an effective and practical framework for failure attribution in long multi-agent execution logs.
- Abstract(参考訳): LLMベースのマルチエージェントシステムにおけるフェールアトリビューションは、フェール実行に寄与するステップを特定することを目的としている。
このタスクは、単一の実行に多くのエージェントアクションやツールコールが含まれ、失敗のエビデンスが元のミスの後、多くのステップで現れるため、難しいままです。
これらの課題に対処するために,小型言語モデル (SLM) のプリフィルステージ信号を用いて,障害帰属を行う軽量フレームワーク MASPrism を提案する。
MASPrismは、プリフィルパス中にトークンレベルの負のログ類似度と注意重みを抽出し、デコードすることなく、症状のようなステップや初期の候補ソースを特定する。
その後、集中した診断プロンプトを再構築し、失敗ソース候補をランク付けするための第2のプリフィルパスを実行する。
Qwen3-0.6BをSLMとして使用することにより、MASPrismはWho&WhenとTRAILの4つの評価されたサブセットの中で最高のパフォーマンスを達成し、Who&When-HCのTop-1精度を33.41%向上させた。
TRAIL では、MASPrism は Gemini-2.5-Pro を含む強力なプロプライエタリ LLM よりも89.50% 向上している。
MASPrismは各トレースを平均2.66秒で処理し、単一パスのプロンプトベースラインを6.69$\times$スピードアップし、出力トークンをゼロにする。
これらの結果から,MASPrismは長時間のマルチエージェント実行ログにおいて,障害帰属のための効果的かつ実用的なフレームワークを提供することが示された。
関連論文リスト
- DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。
Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。
AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文 参考訳(メタデータ) (2025-09-03T13:42:14Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。