論文の概要: StepFinder: A Temporal Semantic Framework for Failure Attribution in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2606.03467v1
- Date: Tue, 02 Jun 2026 10:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.946997
- Title: StepFinder: A Temporal Semantic Framework for Failure Attribution in Multi-Agent Systems
- Title(参考訳): StepFinder: マルチエージェントシステムにおける障害帰属のための時間的セマンティックフレームワーク
- Authors: Taiyu Zhu, Yifan Wu, Weilin Jin, Ying Li, Gang Huang,
- Abstract要約: 失敗帰属(Failure Attribution)は、障害の原因となる根本原因のステップを自動的に特定することを目的としたタスクである。
既存のフェール帰属法は主に、元の実行軌跡を推論するためにLLMに依存している。
我々は、軽量な障害属性フレームワークであるStepFinderを提案する。
- 参考スコア(独自算出の注目度): 11.500948775496218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems exhibit remarkable collaborative capabilities in complex multi-step tasks. However, these systems are highly sensitive to single-step execution errors that can propagate through agent interactions and lead to cascading failures. To understand the causes of failure and improve system reliability, failure attribution has been introduced as a task that aims to automatically identify the root cause step responsible for a failure. Existing failure attribution methods mainly rely on LLMs to reason over original execution trajectories, which not only incur high inference costs and latency, but also suffer from interference caused by redundant and noisy execution logs, causing LLMs to struggle in accurately identifying the true root cause step. To address this, we propose StepFinder, a lightweight failure attribution framework. We use LLMs solely during the feature construction phase to encode execution logs into temporal semantic sequences. Subsequently, a parameter-efficient combination of temporal modeling and attention modules is applied to capture the sequential evolution and cross-step dependencies of the trajectories. Finally, the step-level error score is refined through multi-scale differences and position bias, enabling precise root cause identification. Experimental results on the Who&When benchmark demonstrate that StepFinder outperforms LLM-based methods in step-level failure attribution while achieving substantially higher inference efficiency, reducing inference time by 79% compared with the fastest LLM-based method, with no text generation overhead. Our code is available at https://github.com/taiyu-zhu/StepFinder.
- Abstract(参考訳): LLMベースのマルチエージェントシステムは、複雑なマルチステップタスクにおいて顕著な協調機能を示す。
しかし、これらのシステムは単一ステップの実行エラーに非常に敏感であり、エージェント間相互作用を通じて伝播し、カスケード障害を引き起こす。
障害の原因を理解し、システムの信頼性を向上させるために、障害の原因となる根本原因のステップを自動的に特定するタスクとして、障害帰属が導入された。
既存のフェールアトリビューション手法は、主にLSMに頼って、推論コストと遅延を発生させるだけでなく、冗長でノイズの多い実行ログによる干渉に悩まされ、LSMは真の根本原因のステップを正確に特定するのに苦労する。
これを解決するために、軽量な障害帰属フレームワークであるStepFinderを提案する。
機能構築段階でのみLLMを使用して,実行ログを時間的意味シーケンスにエンコードする。
その後、時間的モデリングとアテンションモジュールのパラメータ効率を併用して、軌道の逐次的進化とステップ間の依存関係をキャプチャする。
最後に、ステップレベルの誤差スコアをマルチスケールの差分と位置バイアスによって洗練し、正確な根本原因同定を可能にする。
Who&Whenベンチマークの実験結果によると、StepFinderはステップレベルの失敗帰属法よりも高い推論効率を実現し、テキスト生成オーバーヘッドのない高速なLCM法と比較して推論時間を79%削減する。
私たちのコードはhttps://github.com/Taiyu-zhu/StepFinder.comから入手可能です。
関連論文リスト
- FALAT: Tracing Failures in LLM Agent Trajectories via Dependency-Guided Search [11.638321375070047]
LLMエージェントトラジェクトリにおける障害帰属の診断フレームワークであるFALATを提案する。
我々は、アルゴリズム生成と手作りのマルチエージェント障害軌跡を含むWho&WhenベンチマークでFALATを評価する。
論文 参考訳(メタデータ) (2026-05-30T15:11:35Z) - From Flat Logs to Causal Graphs: Hierarchical Failure Attribution for LLM-based Multi-Agent Systems [13.588125015284257]
本稿では,カオス軌跡を階層型因果グラフに変換する新しいフレームワークCHIEFを提案する。
Who&Whenベンチマークの実験によると、CHIEFはエージェントレベルの精度とステップレベルの精度の両方で8つの強い、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-27T06:08:42Z) - AgentRx: Diagnosing AI Agent Failures from Execution Trajectories [9.61742219198197]
構造化されたAPI、インシデント管理、オープンなWeb/ファイルタスクにまたがる115の障害トラジェクトリのベンチマークをリリースする。
各トラジェクトリには、臨界障害ステップと、基底理論から派生したクロスドメイン障害分類のカテゴリが注釈付けされている。
本稿では,ドメインに依存しない自動診断フレームワークであるAgentRXについて述べる。
論文 参考訳(メタデータ) (2026-02-02T18:54:07Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Solving a Million-Step LLM Task with Zero Errors [13.911986576836568]
本稿では,100万 LLM ステップ以上のタスクをゼロエラーで解決した最初のシステムである MAKER について述べる。
その結果,現在のLLMの継続的な改善に頼るのではなく,大規模分解型エージェントプロセス(MDAP)は,組織や社会のレベルでの問題を効率的に解決する手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-12T06:27:55Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。