論文の概要: Towards Self-Improving Error Diagnosis in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2604.17658v1
- Date: Sun, 19 Apr 2026 23:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.623721
- Title: Towards Self-Improving Error Diagnosis in Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムにおける自己改善型エラー診断に向けて
- Authors: Jiazheng Li, Emine Yilmaz, Bei Chen, Dieu-Thu Le,
- Abstract要約: セマンティック障害帰属のための自己改善フレームワークであるErrorProbeを紹介する。
ErrorProbeは、責任あるエージェントと発生したエラーステップを特定する。
検証されたエピソードメモリを維持しており、実行可能証拠によってエラーパターンが確認された場合にのみ更新される。
- 参考スコア(独自算出の注目度): 31.04613892300063
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM)-based Multi-Agent Systems (MAS) enable complex problem-solving but introduce significant debugging challenges, characterized by long interaction traces, inter-agent dependencies, and delayed error manifestation. Existing diagnostic approaches often rely on expensive expert annotation or ''LLM-as-a-judge'' paradigms, which struggle to pinpoint decisive error steps within extended contexts. In this paper, we introduce ErrorProbe, a self-improving framework for semantic failure attribution that identifies responsible agents and the originating error step. The framework operates via a three-stage pipeline: (1) operationalizing the MAS failure taxonomy to detect local anomalies, (2) performing symptom-driven backward tracing to prune irrelevant context, and (3) employing a specialized multi-agent team (Strategist, Investigator, Arbiter) to validate error hypotheses through tool-grounded execution. Crucially, ErrorProbe maintains a verified episodic memory that updates only when error patterns are confirmed by executable evidence, without the need for annotation. Experiments across the TracerTraj and Who&When benchmarks demonstrate that ErrorProbe significantly outperforms baselines, particularly in step-level localization, while the verified memory enables robust cross-domain transfer without retraining.
- Abstract(参考訳): LLM(Large Language Model)ベースのマルチエージェントシステム(Multi-Agent Systems、MAS)は複雑な問題解決を実現するが、長いインタラクショントレース、エージェント間の依存関係、遅延エラーの顕在化を特徴とする、重大なデバッグ問題を引き起こす。
既存の診断アプローチは、しばしば高価な専門家アノテーションや'LLM-as-a-judge'パラダイムに依存しており、拡張コンテキスト内で決定的なエラーステップを特定するのに苦労している。
本稿では、責任あるエージェントと発生したエラーステップを識別する意味障害属性の自己改善フレームワークであるErrorProbeを紹介する。
このフレームワークは、(1)局所的な異常を検出するためにMAS障害分類を運用し、(2)症状駆動の後方トレースを実行し、(3)専門のマルチエージェントチーム(Strategist、Inveigator、Arbiter)を使用して、ツールグラウンド実行によるエラー仮説の検証を行う。
重要なのは、ErrorProbeは検証済みのエピソードメモリを維持しており、アノテーションを必要とせずに、実行可能なエビデンスによってエラーパターンが確認された場合にのみ更新される。
TracerTrajとWho&Whenベンチマークによる実験によると、ErrorProbeは、特にステップレベルのローカライゼーションにおいて、ベースラインを大幅に上回っている。
関連論文リスト
- AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems [0.0]
本稿では,デプロイされたマルチエージェントAIシステムにおけるポストホック障害診断のための軽量因果トレースフレームワークであるAgentTraceを紹介する。
AgentTraceは、実行ログから因果グラフを再構築し、エラー発生から後方にトレースし、解釈可能な構造信号と位置信号を使って候補根本原因をランク付けする。
この結果から,因果トレースはエージェントシステムの信頼性と信頼性を向上させるための実践的な基盤となることが示唆された。
論文 参考訳(メタデータ) (2026-03-16T00:46:44Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - AgentRx: Diagnosing AI Agent Failures from Execution Trajectories [9.61742219198197]
構造化されたAPI、インシデント管理、オープンなWeb/ファイルタスクにまたがる115の障害トラジェクトリのベンチマークをリリースする。
各トラジェクトリには、臨界障害ステップと、基底理論から派生したクロスドメイン障害分類のカテゴリが注釈付けされている。
本稿では,ドメインに依存しない自動診断フレームワークであるAgentRXについて述べる。
論文 参考訳(メタデータ) (2026-02-02T18:54:07Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。