論文の概要: Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference
- arxiv url: http://arxiv.org/abs/2509.08682v1
- Date: Wed, 10 Sep 2025 15:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.471655
- Title: Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference
- Title(参考訳): 因果推論に基づくマルチエージェントシステムの自動故障属性と臨界ステップ予測法
- Authors: Guoqing Ma, Jia Zhu, Hanghui Guo, Weijie Shi, Jiawei Shen, Jingjiang Liu, Yidan Liang,
- Abstract要約: マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.823529310904162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems (MAS) are critical for automating complex tasks, yet their practical deployment is severely hampered by the challenge of failure attribution. Current diagnostic tools, which rely on statistical correlations, are fundamentally inadequate; on challenging benchmarks like Who\&When, state-of-the-art methods achieve less than 15\% accuracy in locating the root-cause step of a failure. To address this critical gap, we introduce the first failure attribution framework for MAS grounded in multi-granularity causal inference. Our approach makes two key technical contributions: (1) a performance causal inversion principle, which correctly models performance dependencies by reversing the data flow in execution logs, combined with Shapley values to accurately assign agent-level blame; (2) a novel causal discovery algorithm, CDC-MAS, that robustly identifies critical failure steps by tackling the non-stationary nature of MAS interaction data. The framework's attribution results directly fuel an automated optimization loop, generating targeted suggestions whose efficacy is validated via counterfactual simulations. Evaluations on the Who\&When and TRAIL benchmarks demonstrate a significant leap in performance. Our method achieves up to 36.2\% step-level accuracy. Crucially, the generated optimizations boost overall task success rates by an average of 22.4\%. This work provides a principled and effective solution for debugging complex agent interactions, paving the way for more reliable and interpretable multi-agent systems.
- Abstract(参考訳): マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって著しく妨げられている。
現在の診断ツールは、統計的相関に頼っているが、基本的には不十分である。Who\&Whenのような挑戦的なベンチマークでは、最先端の手法は失敗の根本原因のステップを突き止める際の精度が15倍未満である。
この重要なギャップに対処するために,多粒性因果推論に基づくMASに対する最初の失敗帰属フレームワークを導入する。
提案手法は,(1)実行ログ内のデータフローを逆転させてパフォーマンス依存性を正しくモデル化する性能因果逆転原理と,(2)MASの非定常特性に対処して重要な障害ステップを確実に識別する新たな因果探索アルゴリズムであるCDC-MASの2つの技術的貢献を行う。
フレームワークの属性は、自動最適化ループを直接推進し、反ファクトシミュレーションによって有効性が検証されたターゲット候補を生成する。
Who\&WhenベンチマークとTRAILベンチマークの評価は、パフォーマンスの大きな飛躍を示している。
ステップレベルの精度は36.2 %まで向上する。
重要なのは、生成された最適化によって、全体のタスク成功率が平均22.4\%向上することです。
この作業は、複雑なエージェントのインタラクションをデバッグし、より信頼性が高く解釈可能なマルチエージェントシステムを実現するための、原則的で効果的なソリューションを提供する。
関連論文リスト
- AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
本稿では,データセットを生成するためのセキュアなC/C++に,現実的なカテゴリ固有の脆弱性を自動的に導入する新しいフレームワークを提案する。
提案したアプローチは、専門家の推論をシミュレートする複数のAIエージェントと、関数エージェントと従来のコード解析ツールをコーディネートする。
3つの異なるベンチマークから得られた116のコードサンプルに関する実験的研究は、我々のアプローチがデータセットの精度に関して他の手法よりも優れていることを示唆している。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - Distributionally Robust Optimization with Adversarial Data Contamination [36.409282287280185]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Robust and Computation-Aware Gaussian Processes [18.264598332579748]
本稿では,近似による不確実性の原理的処理と強一般化ベイズ更新を組み合わせた新しいGPモデルであるRobust Computation-Aware Gaussian Process (RCaGP)を紹介する。
私たちのモデルは、より保守的で信頼性の高い不確実性評価を確実にします。
実験の結果、これらの課題を共同で解決することで、クリーンな設定とアウターな設定の両方で優れたパフォーマンスが得られることが確認された。
論文 参考訳(メタデータ) (2025-05-27T12:49:14Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。