論文の概要: TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis
- arxiv url: http://arxiv.org/abs/2603.24631v1
- Date: Wed, 25 Mar 2026 05:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.902032
- Title: TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis
- Title(参考訳): TRAJEVAL:細粒度診断のためのコードエージェントトラジェクトリの分解
- Authors: Myeongsoo Kim, Dingmin Wang, Siwei Cui, Farima Farmahinifarahani, Shweta Garg, Baishakhi Ray, Terry Yue Zhuo, Rajdeep Mukherjee, Varun Kumar,
- Abstract要約: コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
- 参考スコア(独自算出の注目度): 23.834704102474927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code agents can autonomously resolve GitHub issues, yet when they fail, current evaluation provides no visibility into where or why. Metrics such as Pass@1 collapse an entire execution into a single binary outcome, making it difficult to identify where and why the agent went wrong. To address this limitation, we introduce TRAJEVAL, a diagnostic framework that decomposes agent trajectories into three interpretable stages: search (file localization), read (function comprehension), and edit (modification targeting). For each stage, we compute precision and recall by comparing against reference patches. Analyzing 16,758 trajectories across three agent architectures and seven models, we find universal inefficiencies (all agents examine approximately 22x more functions than necessary) yet distinct failure modes: GPT-5 locates relevant code but targets edits incorrectly, while Qwen-32B fails at file discovery entirely. We validate that these diagnostics are predictive, achieving model-level Pass@1 prediction within 0.87-2.1% MAE, and actionable: real-time feedback based on trajectory signals improves two state-of-the-art models by 2.2-4.6 percentage points while reducing costs by 20-31%. These results demonstrate that our framework not only provides a more fine-grained analysis of agent behavior, but also translates diagnostic signals into tangible performance gains. More broadly, TRAJEVAL transforms agent evaluation beyond outcome-based benchmarking toward mechanism-driven diagnosis of agent success and failure.
- Abstract(参考訳): コードエージェントは、GitHubの問題を自律的に解決するが、失敗すると、現在の評価は、場所や理由を可視化しない。
Pass@1のようなメトリクスは、実行全体を単一のバイナリ結果に分解する。
この制限に対処するため、TRAJEVALは、エージェントトラジェクトリを3つの解釈可能なステージに分解する診断フレームワークである、検索(ファイルのローカライゼーション)、読み(関数の理解)、編集(修正ターゲティング)を紹介する。
各ステージにおいて、参照パッチとの比較により精度とリコールを計算する。
3つのエージェントアーキテクチャと7つのモデルにまたがる16,758のトラジェクトリを分析すると、普遍的な非効率性(すべてのエージェントは、必要以上に22倍多くの関数を検査する)が明らかになる。
我々はこれらの診断が予測可能であり,0.87-2.1%のMAEでモデルレベルのPass@1予測を実現し,動作可能なことを検証する。
これらの結果から,本フレームワークはエージェント動作のよりきめ細かな解析を提供するだけでなく,診断信号を有意な性能向上に変換することを示した。
より広範に、TRAJEVALはエージェント評価を結果ベースベンチマークを超えて、エージェントの成功と失敗のメカニズム駆動診断に変換する。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Interpretable Failure Analysis in Multi-Agent Reinforcement Learning Systems [8.723131512052703]
MARL(Multi-Agent Reinforcement Learning)は、安全上重要な領域にますます導入されている。
本稿では,3つの臨界故障解析タスクの解釈可能な診断を行うための2段階の勾配に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-08T19:55:26Z) - From Features to Actions: Explainability in Traditional and Agentic AI Systems [8.859406164948718]
我々は、帰属に基づく説明とトレースに基づく診断を比較することによって、静的とエージェント的説明のギャップを埋める。
以上の結果から,エージェント設定のためのトレースベースの診断は,常に動作の破壊を局所化することがわかった。
論文 参考訳(メタデータ) (2026-02-06T16:34:29Z) - DepRadar: Agentic Coordination for Context Aware Defect Impact Analysis in Deep Learning Libraries [12.07621297131295]
DepRadarは、DLライブラリのアップデートにおけるきめ細かい欠陥と影響分析のためのエージェント調整フレームワークである。
静的解析とDL固有のドメインルールを統合し、欠陥推論とクライアント側のトレースを行う。
122のクライアントプログラムにおいて、DepRadarは90%のリコールと80%の精度で影響を受けるケースを特定し、他のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-14T12:41:39Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。