論文の概要: CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures
- arxiv url: http://arxiv.org/abs/2605.25338v1
- Date: Mon, 25 May 2026 01:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.234621
- Title: CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures
- Title(参考訳): Causal Flow: LLMの薬剤障害に対する因果的寄与と対策
- Authors: Akash Bonagiri, Devang Borkar, Gerard Janno Anderias, Setareh Rafatirad, Houman Homayoun,
- Abstract要約: フェールエージェントトレースを最小限の偽物修復と再利用可能な監視に変換する介入フレームワークであるCausalFlowを紹介した。
CaulFlowは、最小限の振る舞いドリフトで障害から回復するターゲットテスト時修復と、オフラインの優先度最適化や報酬モデリングに適したトレーニング時間監視の2つの補完的な使用をサポートする。
- 参考スコア(独自算出の注目度): 4.061481215870679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents frequently fail on multi-step tasks involving reasoning, tool use, and environment interaction. While such failures are typically logged or retried heuristically, they contain structured signals about where execution broke down. We introduce CausalFlow, an interventional framework that converts failed agent traces into minimal counterfactual repairs and reusable supervision. CausalFlow models execution traces as sequential chains of dependent steps and computes Causal Responsibility Scores(CRS) via step-level counterfactual intervention to identify failure-inducing steps. For these steps, we generate minimally edited repairs that flip the final outcome to success, producing validated contrastive pairs of the form (wrong step, corrected step). CausalFlow supports two complementary uses: targeted test-time repair that recovers from failures with minimal behavioral drift, and training-time supervision suitable for offline preference optimization or reward modeling. Across four benchmarks spanning mathematical reasoning, code generation, question answering, and medical browsing, CausalFlow converts failed executions into validated minimal repairs with high minimality and causal-consensus scores, and demonstrates that causal attribution is necessary for reliable improvement across diverse agent tasks, outperforming heuristic refinement in complex retrieval settings while producing more localized repairs throughout. These results demonstrate that interventional analysis over structured execution traces provides a principled and scalable mechanism for transforming agent failures into reliability gains and learning-ready supervision.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、推論、ツールの使用、環境相互作用を含む多段階のタスクで頻繁に失敗する。
このような障害は一般的にログに記録されるか、ヒューリスティックに検索されるが、実行が故障した場所に関する構造化された信号を含んでいる。
フェールエージェントトレースを最小限の偽物修復と再利用可能な監視に変換する介入フレームワークであるCausalFlowを紹介した。
CausalFlowは、実行トレースを依存ステップのシーケンシャルチェーンとしてモデル化し、障害発生ステップを特定するためのステップレベルの対実的介入を通じて、Causal Responsibility Scores(CRS)を計算する。
これらのステップに対して、我々は、最終的な成果を成功に反転させる最小限の修正修理を生成し、そのフォームの検証された対照的なペア(簡単なステップ、修正されたステップ)を生成します。
CausalFlowは、最小限の振る舞いドリフトで障害から回復するターゲットテスト時修復と、オフラインの優先度最適化や報酬モデリングに適したトレーニング時間監視の2つの補完的利用をサポートしている。
数学的推論、コード生成、質問応答、医療ブラウジングの4つのベンチマークにおいて、CausalFlowは、失敗した実行を高い最小限の修理と因果一貫性スコアで検証された最小限の修理に変換する。
これらの結果は、構造化された実行トレースに対する介入分析が、エージェントの障害を信頼性向上と学習対応の監視に変換する原則的かつスケーラブルなメカニズムを提供することを示した。
関連論文リスト
- Meta-Agent: From Task Descriptions to Verified Multi-Agent Systems [36.485119937780524]
本稿では,マルチエージェントシステムの自動構築と実行を行う2相フレームワークMeta-Agentを提案する。
本稿では,局所的,上流的,構造的障害を区別する3段階の誤り帰属機構を提案する。
強力なマルチエージェントベースラインとアブレーションスタディに対する実験では、タスク成功率、エラー回復、ワークフロー安定性が一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-05-24T19:38:54Z) - VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - CellScientist: Dual-Space Hierarchical Orchestration for Closed-Loop Refinement of Virtual Cell Models [62.281480231694]
VCM(Virtual Cell Modeling)は、摂動応答を予測できるだけでなく、予測が失敗した場合にターゲットリビジョンをサポートするモデルを必要とする。
現在のLCM支援モデリングでは、予測誤差が実行可能実装を通して観測されるという改善ルーティング問題に直面している。
提案するCellScientistは,高レベル仮説空間と低レベル実行可能実装空間を結合した,二重空間階層型フレームワークである。
論文 参考訳(メタデータ) (2026-05-08T06:40:24Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems [7.429835301272413]
フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。
軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。
我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
論文 参考訳(メタデータ) (2026-02-18T14:55:35Z) - TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code [11.207330722400764]
人間の観察・分析・修復過程をエミュレートするフレームワークであるTraceCoderを提案する。
このフレームワークはまずコードを診断プローブで測定し、粒度の細かいランタイムトレースをキャプチャする。
その後、これらのトレースについて因果解析を行い、失敗の根本原因を正確に特定する。
論文 参考訳(メタデータ) (2026-02-06T16:59:48Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。