論文の概要: XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights
- arxiv url: http://arxiv.org/abs/2603.05941v1
- Date: Fri, 06 Mar 2026 06:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.180132
- Title: XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights
- Title(参考訳): XAI for Coding Agent Failures: Raw Execution TracesをActionable Insightsに変換する
- Authors: Arun Joshi,
- Abstract要約: 我々は、生エージェントの実行トレースを構造化された人間解釈可能な説明に変換する、体系的な説明可能なAI(XAI)アプローチを提案する。
提案手法では,障害原因の同定を2.8倍高速に行うことができ,実際の実行トレースよりも73%高い精度で修正を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based coding agents show promise in automating software development tasks, yet they frequently fail in ways that are difficult for developers to understand and debug. While general-purpose LLMs like GPT can provide ad-hoc explanations of failures, raw execution traces remain challenging to interpret even for experienced developers. We present a systematic explainable AI (XAI) approach that transforms raw agent execution traces into structured, human-interpretable explanations. Our method consists of three key components: (1) a domain-specific failure taxonomy derived from analyzing real agent failures, (2) an automatic annotation system that classifies failures using defined annotation schema, (3) a hybrid explanation generator that produces visual execution flows, natural language explanations, and actionable recommendations. Through a user study with 20 participants (10 technical, 10 non-technical), we demonstrate that our approach enables users to identify failure root causes 2.8 times faster and propose correct fixes with 73% higher accuracy compared to raw execution traces. Importantly, our structured approach outperforms ad-hoc state of the art models explanations by providing consistent, domain-specific insights with integrated visualizations. Our work establishes a framework for systematic agent failure analysis, addressing the critical need for interpretable AI systems in software development workflows
- Abstract(参考訳): LLM(Large Language Model)ベースのコーディングエージェントは、ソフトウェア開発タスクの自動化を約束するが、開発者が理解し、デバッグすることが難しい方法で失敗することが多い。
GPTのような汎用LLMは障害のアドホックな説明を提供するが、経験豊富な開発者でさえ、生の実行トレースは解釈が難しいままである。
我々は、生エージェントの実行トレースを構造化された人間解釈可能な説明に変換する、体系的な説明可能なAI(XAI)アプローチを提案する。
提案手法は,(1)実エージェントの故障を分析したドメイン固有の故障分類,(2)定義したアノテーションスキーマを用いて障害を分類する自動アノテーションシステム,(3)視覚的実行フローを生成するハイブリッド説明生成,そして行動可能なレコメンデーションの3つから構成される。
本稿では,20名の参加者(技術的に10名,非技術的に10名)によるユーザスタディを通じて,障害原因を2.8倍高速に識別し,生の実行トレースと比較して73%高い精度で修正を提案する。
重要なことは、構造化されたアプローチは、統合された視覚化で一貫したドメイン固有の洞察を提供することで、アドホックな最先端のモデル説明よりも優れています。
私たちの研究は、ソフトウェア開発ワークフローにおける解釈可能なAIシステムに対する重要なニーズに対処する、体系的なエージェント障害分析のためのフレームワークを確立する。
関連論文リスト
- Steering LLMs via Scalable Interactive Oversight [74.12746881843044]
大規模な言語モデルは、エンフェーブコーディングのような複雑で長期にわたるタスクをますます自動化し、監督のギャップが生まれています。
スケーラブルな監視において重要な課題は、人間が責任を持ってAIシステムを、特定または検証する能力を超えたタスクで操ることができることだ。
論文 参考訳(メタデータ) (2026-02-04T04:52:00Z) - Multi-Agent Procedural Graph Extraction with Structural and Logical Refinement [66.51979814832332]
モデル式は、専用の構造的および論理的洗練を伴う多ラウンド推論プロセスとして手続きグラフ抽出を定式化する。
実験により、モデルが強いベースラインに対して構造的正当性と論理的整合性の両方において大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2026-01-27T04:00:48Z) - Talk Less, Verify More: Improving LLM Assistants with Semantic Checks and Execution Feedback [14.593478824805542]
本稿では,コードとユーザ意図の相互変換とセマンティックマッチングを行うQ*と,コード修正のための実行フィードバックを組み込んだFeedback+の2つの補完的検証手法を紹介する。
Spider、Bird、GSM8Kの3つのベンチマークデータセットの評価では、Q*とFeedback+の両方がエラー率とタスク完了時間を削減している。
論文 参考訳(メタデータ) (2026-01-01T06:10:06Z) - Process-Centric Analysis of Agentic Software Systems [10.976178600911263]
ソフトウェアシステムにおける時間的・意味的な関係をエンコードするためにGraphectoryを導入する。
2つの支配的エージェントプログラミングモデルの4000のトラジェクトリを解析する。
完全に自動化された分析により、よりリッチなプロンプトを用いたエージェントはより複雑なGraphectoryを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-12-02T04:12:29Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。
コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文 参考訳(メタデータ) (2025-10-20T17:53:23Z) - Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - TRAIL: Trace Reasoning and Agentic Issue Localization [5.025960714013197]
この研究は、エージェントワークフロートレースに対する堅牢でダイナミックな評価方法の必要性を明確に示している。
我々は,この分類法を用いて構築され,確立されたエージェント・ベンチマークに基づいて構築された148個の大型人名跡(TRAIL)について述べる。
生態学的妥当性を確保するため,単一エージェントシステムとマルチエージェントシステムの両方のトレースをキュレートする。
論文 参考訳(メタデータ) (2025-05-13T14:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。