論文の概要: CodeTracer: Towards Traceable Agent States
- arxiv url: http://arxiv.org/abs/2604.11641v2
- Date: Tue, 14 Apr 2026 13:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.519343
- Title: CodeTracer: Towards Traceable Agent States
- Title(参考訳): CodeTracer: トレース可能なエージェント状態を目指す
- Authors: Han Li, Yifan Yao, Letian Zhu, Rili Feng, Hongyi Ye, Jiaming Wang, Yancheng He, Pengyu Zou, Lehan Zhang, Xinping Lei, Haoyang Huang, Ken Deng, Ming Sun, Zhaoxiang Zhang, He Ye, Jiaheng Liu,
- Abstract要約: 異種実行アーティファクトを解析し,抽出器を進化させるトレースアーキテクチャであるCodeTracerを提案する。
CodeTracerは、永続的なメモリを持つ階層的なトレースツリーとして、完全な状態遷移履歴を再構築する。
障害発生元とその下流チェーンを特定するために、障害オンセットのローカライゼーションを実行する。
- 参考スコア(独自算出の注目度): 40.51936201889185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code agents are advancing rapidly, but debugging them is becoming increasingly difficult. As frameworks orchestrate parallel tool calls and multi-stage workflows over complex tasks, making the agent's state transitions and error propagation hard to observe. In these runs, an early misstep can trap the agent in unproductive loops or even cascade into fundamental errors, forming hidden error chains that make it hard to tell when the agent goes off track and why. Existing agent tracing analyses either focus on simple interaction or rely on small-scale manual inspection, which limits their scalability and usefulness for real coding workflows. We present CodeTracer, a tracing architecture that parses heterogeneous run artifacts through evolving extractors, reconstructs the full state transition history as a hierarchical trace tree with persistent memory, and performs failure onset localization to pinpoint the failure origin and its downstream chain. To enable systematic evaluation, we construct CodeTraceBench from a large collection of executed trajectories generated by four widely used code agent frameworks on diverse code tasks (e.g., bug fixing, refactoring, and terminal interaction), with supervision at both the stage and step levels for failure localization. Experiments show that CodeTracer substantially outperforms direct prompting and lightweight baselines, and that replaying its diagnostic signals consistently recovers originally failed runs under matched budgets. Our code and data are publicly available.
- Abstract(参考訳): コードエージェントは急速に進歩しているが、デバッグはますます難しくなっている。
フレームワークは複雑なタスクに対して並列ツールコールとマルチステージワークフローをオーケストレーションし、エージェントの状態遷移とエラーの伝搬を観察しにくくする。
これらの実行において、早期のミスステップは、エージェントを非生産的なループに閉じ込めたり、あるいはカスケードを基本的なエラーにトラップすることができる。
既存のエージェントトレース分析は、単純なインタラクションにフォーカスするか、小さな手作業によるインスペクションに依存しているため、実際のコーディングワークフローにおけるスケーラビリティと有用性が制限される。
提案するCodeTracerは,抽出器の進化による異種実行アーティファクトの解析,階層的トレースツリーとしての完全な状態遷移履歴の再構築,障害発生源とその下流チェーンの特定のための障害オンセットのローカライゼーションを行う。
システム評価を実現するため,多種多様なコードタスク(バグ修正,リファクタリング,端末操作など)上で,広く使用されている4つのコードエージェントフレームワークによって生成された多数の実行軌跡からCodeTraceBenchを構築する。
実験の結果、CodeTracerは直接的なプロンプトや軽量なベースラインよりも大幅に優れており、診断信号の再生は、一致した予算の下で失敗に終わったランニングを継続的に回復することがわかった。
私たちのコードとデータは公開されています。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems [0.0]
本稿では,デプロイされたマルチエージェントAIシステムにおけるポストホック障害診断のための軽量因果トレースフレームワークであるAgentTraceを紹介する。
AgentTraceは、実行ログから因果グラフを再構築し、エラー発生から後方にトレースし、解釈可能な構造信号と位置信号を使って候補根本原因をランク付けする。
この結果から,因果トレースはエージェントシステムの信頼性と信頼性を向上させるための実践的な基盤となることが示唆された。
論文 参考訳(メタデータ) (2026-03-16T00:46:44Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code [11.207330722400764]
人間の観察・分析・修復過程をエミュレートするフレームワークであるTraceCoderを提案する。
このフレームワークはまずコードを診断プローブで測定し、粒度の細かいランタイムトレースをキャプチャする。
その後、これらのトレースについて因果解析を行い、失敗の根本原因を正確に特定する。
論文 参考訳(メタデータ) (2026-02-06T16:59:48Z) - AgentRx: Diagnosing AI Agent Failures from Execution Trajectories [9.61742219198197]
構造化されたAPI、インシデント管理、オープンなWeb/ファイルタスクにまたがる115の障害トラジェクトリのベンチマークをリリースする。
各トラジェクトリには、臨界障害ステップと、基底理論から派生したクロスドメイン障害分類のカテゴリが注釈付けされている。
本稿では,ドメインに依存しない自動診断フレームワークであるAgentRXについて述べる。
論文 参考訳(メタデータ) (2026-02-02T18:54:07Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。