論文の概要: Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2509.10401v1
- Date: Fri, 12 Sep 2025 16:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.168093
- Title: Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems
- Title(参考訳): 減算, 法, 予測:多エージェントシステムにおける自動故障帰属の因果推論
- Authors: Alva West, Yixuan Weng, Minjun Zhu, Zhen Lin, Yue Zhang,
- Abstract要約: マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
- 参考スコア(独自算出の注目度): 19.51773458179898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Failure attribution in multi-agent systems -- pinpointing the exact step where a decisive error occurs -- is a critical yet unsolved challenge. Current methods treat this as a pattern recognition task over long conversation logs, leading to critically low step-level accuracy (below 17\%), which renders them impractical for debugging complex systems. Their core weakness is a fundamental inability to perform robust counterfactual reasoning: to determine if correcting a single action would have actually averted the task failure. To bridge this counterfactual inference gap, we introduce Abduct-Act-Predict (A2P) Scaffolding, a novel agent framework that transforms failure attribution from pattern recognition into a structured causal inference task. A2P explicitly guides a large language model through a formal three-step reasoning process within a single inference pass: (1) Abduction, to infer the hidden root causes behind an agent's actions; (2) Action, to define a minimal corrective intervention; and (3) Prediction, to simulate the subsequent trajectory and verify if the intervention resolves the failure. This structured approach leverages the holistic context of the entire conversation while imposing a rigorous causal logic on the model's analysis. Our extensive experiments on the Who\&When benchmark demonstrate its efficacy. On the Algorithm-Generated dataset, A2P achieves 47.46\% step-level accuracy, a 2.85$\times$ improvement over the 16.67\% of the baseline. On the more complex Hand-Crafted dataset, it achieves 29.31\% step accuracy, a 2.43$\times$ improvement over the baseline's 12.07\%. By reframing the problem through a causal lens, A2P Scaffolding provides a robust, verifiable, and significantly more accurate solution for automated failure attribution.
- Abstract(参考訳): マルチエージェントシステムにおける失敗の帰属 -- 決定的なエラーが発生する正確なステップを指示する -- は、批判的だが未解決の課題である。
現在の方法では、これを長い会話ログ上のパターン認識タスクとして扱うため、ステップレベルの精度が著しく低くなり(17.5%以下)、複雑なシステムをデバッグするには実用的でない。
その中核的な弱点は、単一のアクションの修正が実際にタスクの失敗を回避したかどうかを判断する、堅牢な反ファクト推論を実行するための根本的な障害である。
本稿では,障害原因をパターン認識から構造的因果推論タスクに変換する新しいエージェントフレームワークであるAbduct-Act-Predict (A2P) Scaffoldingを紹介する。
A2Pは、単一の推論パス内の3段階の正式な推論プロセスを通じて、大きな言語モデルを明示的にガイドする: 1) エージェントのアクションの背後にある隠された根本原因を推論する; (2) 最小の修正的介入を定義する; (3) 予測: 後続の軌道をシミュレートし、介入が失敗を解消するかどうかを検証する。
この構造的アプローチは、モデル分析に厳密な因果論理を課しながら、会話全体の全体的コンテキストを活用する。
Who\&Whenベンチマークに関する広範な実験により、その効果が実証された。
Algorithm-Generatedデータセットでは、A2Pはステップレベルの精度47.46\%、ベースラインの16.67\%よりも2.85$\times$改善されている。
より複雑なハンドクラフトデータセットでは、29.31\%のステップ精度を実現し、ベースラインの12.07\%よりも2.43$\times$改善されている。
A2P Scaffoldingは、因果レンズで問題をリフレッシュすることで、自動化された失敗帰属に対する堅牢で検証可能な、そしてはるかに正確な解決策を提供する。
関連論文リスト
- Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - Entropy-Guided Loop: Achieving Reasoning through Uncertainty-Aware Generation [0.0]
entropy-guided refinementは、トークンレベルの不確実性を使用して、1つのターゲットのリファインメントパスをトリガーする軽量なテスト時間ループである。
この不確実性認識ループは,シングルパス推論と高価な推論チェーンの中間点として有効であることを示す。
論文 参考訳(メタデータ) (2025-08-26T22:29:12Z) - Boosting LLM Reasoning via Spontaneous Self-Correction [43.4980625253775]
数学推論を改善するためのアプローチの1つは自己補正である。
既存の自己補正アプローチは、修正を独立したポストジェネレーションとして扱う。
本研究では,LLMが単一推論パスでインターリーブされた解と検証を生成できる自己補正手法であるSPOCを提案する。
論文 参考訳(メタデータ) (2025-06-07T21:23:00Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。
ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。
本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T08:19:48Z) - Sparse representation for damage identification of structural systems [11.397437423613418]
モデル更新とスパース損傷識別のための2段階感度解析に基づく新しいフレームワークを提案する。
次に、準$ell法上に構築されたスパース表現パイプラインを、損傷と局所化定量化のために提示する。
提案手法は, 構造損傷の局所化と定量化の両方を高精度に行うことができることを示す。
論文 参考訳(メタデータ) (2020-06-06T18:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。