論文の概要: TrajAudit: Automated Failure Diagnosis for Agentic Coding Systems
- arxiv url: http://arxiv.org/abs/2605.26563v1
- Date: Tue, 26 May 2026 05:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.682854
- Title: TrajAudit: Automated Failure Diagnosis for Agentic Coding Systems
- Title(参考訳): TrajAudit:エージェントコーディングシステムの自動故障診断
- Authors: Minxing Wang, Xiaofei Xie, Yintong Huo,
- Abstract要約: エージェントシステムは、バグ修正などのソフトウェアエンジニアリングジョブを自動化するために広く研究されている。
既存の自動故障診断アプローチはタスク実行軌跡を活用するが、その効果は軌道長と複雑性の増加とともに低下する。
リポジトリレベルのコーディングタスクには、冗長なプログラム構造や冗長なコードコンテキストなど、トラジェクトリにはノイズが伴っている。
我々は,リポジトリレベルのコーディングトラジェクトリのための最初の障害診断フレームワークであるTrajAuditを提案する。
- 参考スコア(独自算出の注目度): 18.833806809109536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems have been widely studied to automate software engineering jobs such as bug fixing. As these systems increasingly tackle complex tasks, understanding where and why they fail becomes essential for iterative refinement and operational reliability. Existing automated failure diagnosis approaches leverage task execution trajectories, yet their effectiveness degrades substantially as trajectory length and complexity increase. For repository-level coding tasks specifically, trajectories are laden with noise, such as redundant program structure and verbose code context. Moreover, these trajectories are very long, while long-context reasoning remains a known weakness of LLMs. To address these two challenges, we propose TrajAudit, the first failure diagnosis framework for repository-level coding trajectories. TrajAudit employs an investigator agent supported by two modules: one filters failure-irrelevant information through pattern matching and keyword detection, and the other generates a preliminary diagnosis from test failure reports as prior knowledge, helping the agent handle noisy long contexts. The investigator agent can further invoke tools to retrieve filtered content on demand, ensuring that critical information is preserved while noise is minimized. We also introduce RootSE, a benchmark of 93 real-world agentic failure instances sourced from software maintenance tasks, representing the most complex trajectory diagnosis benchmark to date. Experiments on RootSE show that TrajAudit outperforms all existing baselines by over 24.4 percentage points in localization accuracy, while reducing token consumption by at least 18%, demonstrating its practical effectiveness. We hope this work draws community attention to failure management in agentic software engineering and provides a foundational resource for future research.
- Abstract(参考訳): エージェントシステムは、バグ修正などのソフトウェアエンジニアリングジョブを自動化するために広く研究されている。
これらのシステムが複雑なタスクにますます取り組むにつれて、反復的な洗練と運用上の信頼性のために、どこで、なぜ失敗するのかを理解することが不可欠になる。
既存の自動故障診断アプローチはタスク実行軌跡を活用するが、その効果は軌道長と複雑性の増加とともに著しく低下する。
リポジトリレベルのコーディングタスクには、冗長なプログラム構造や冗長なコードコンテキストなど、トラジェクトリにはノイズが伴っている。
さらに、これらの軌道は非常に長いが、LLMの長文推論は依然として既知の弱点である。
これら2つの課題に対処するために,リポジトリレベルのコーディングトラジェクトリのための最初の障害診断フレームワークであるTrajAuditを提案する。
TrajAuditは2つのモジュールでサポートされている調査員を雇っている: 1つはパターンマッチングとキーワード検出によって失敗関連情報をフィルタリングし、もう1つはテスト失敗レポートから事前知識として予備診断を生成し、エージェントがノイズの多い長いコンテキストを処理できるようにする。
また、調査員は、必要に応じてフィルタリングされたコンテンツを検索するためのツールを更に呼び出すことができ、ノイズを最小化しながら重要な情報が保存されることを保証できる。
また、ソフトウェアメンテナンスタスクから生成された93の現実世界のエージェント的障害インスタンスのベンチマークであるRootSEを紹介し、これまでで最も複雑な軌道診断ベンチマークを示している。
RootSEの実験では、TrajAuditが既存のベースラインを24.4ポイント以上上回り、トークン消費を少なくとも18%削減し、その実用性を示している。
この作業がエージェントソフトウェアエンジニアリングにおける障害管理にコミュニティの注意を引き付け、将来の研究の基盤となるリソースを提供することを期待しています。
関連論文リスト
- Meta-Agent: From Task Descriptions to Verified Multi-Agent Systems [36.485119937780524]
本稿では,マルチエージェントシステムの自動構築と実行を行う2相フレームワークMeta-Agentを提案する。
本稿では,局所的,上流的,構造的障害を区別する3段階の誤り帰属機構を提案する。
強力なマルチエージェントベースラインとアブレーションスタディに対する実験では、タスク成功率、エラー回復、ワークフロー安定性が一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-05-24T19:38:54Z) - Trace2Skill: Verifier-Guided Skill Evolution for Long-Context EDA Agents [0.3733676450456031]
テスト時間スケーリングフレームワークであるTrace2Skillを提案する。
新しいモデルをトレーニングしたり、より多くの候補ソリューションをサンプリングする代わりに、Trace2Skillはエージェントの自然言語スキルを進化可能なポリシーとして扱う。
成功と失敗モードのために繰り返しロールアウトトレースをマイニングし、それらを密集した診断やオラクルのレッスンに変換し、オラクル、ミューテータ、セレクタループを使用してタスク固有のスキルを生成する。
論文 参考訳(メタデータ) (2026-05-20T23:10:49Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems [0.0]
本稿では,デプロイされたマルチエージェントAIシステムにおけるポストホック障害診断のための軽量因果トレースフレームワークであるAgentTraceを紹介する。
AgentTraceは、実行ログから因果グラフを再構築し、エラー発生から後方にトレースし、解釈可能な構造信号と位置信号を使って候補根本原因をランク付けする。
この結果から,因果トレースはエージェントシステムの信頼性と信頼性を向上させるための実践的な基盤となることが示唆された。
論文 参考訳(メタデータ) (2026-03-16T00:46:44Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Process-Centric Analysis of Agentic Software Systems [10.976178600911263]
ソフトウェアシステムにおける時間的・意味的な関係をエンコードするためにGraphectoryを導入する。
2つの支配的エージェントプログラミングモデルの4000のトラジェクトリを解析する。
完全に自動化された分析により、よりリッチなプロンプトを用いたエージェントはより複雑なGraphectoryを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-12-02T04:12:29Z) - From Trace to Line: LLM Agent for Real-World OSS Vulnerability Localization [14.474705451897691]
プロジェクトレベルのエンドツーエンドフレームワークであるT2L-Agentは、独自の分析を計画し、モジュールから正確な脆弱なラインまでスコープを狭める。
T2L-ARVOは,5つのクラッシュファミリと実世界のプロジェクトにまたがる,多種多様な,専門家が検証した50ケースのベンチマークです。
T2L-ARVOでは、T2L-Agentは58.0%の検出と54.8%のラインレベルのローカライゼーションを達成する。
論文 参考訳(メタデータ) (2025-09-30T22:27:18Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。