論文の概要: DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents
- arxiv url: http://arxiv.org/abs/2605.17439v2
- Date: Tue, 19 May 2026 07:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.549801
- Title: DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents
- Title(参考訳): DiagEval:GUIエージェントを用いた信頼性ソフトウェア評価のための軌道依存診断
- Authors: Sirui Hong, Zhijie Liu, Tengfei Li, Wei Tao, Yifan Wu, Chenglin Wu,
- Abstract要約: 本稿では,対話型ソフトウェアのGUIエージェント評価のための軌道条件付き診断評価プロトコルであるDiagEvalを提案する。
DiagEvalは失敗した軌道を再利用して、対象の診断プローブを選択し、その結果を内部の属性信号に集約する。
WebDevJudge-UnitとRealDevBenchのDiagEvalを複数のGUIエージェント評価器とLCMバックボーンで評価する。
- 参考スコア(独自算出の注目度): 16.577116170272934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating LLM-generated interactive software requires execution in addition to static analysis. The key difficulty is that correctness is a graph-level reachable property over latent UI state-transition graphs, whereas a GUI evaluator observes only a single execution trajectory. A failed rollout therefore rules out only one realized path, leaving failure attribution ambiguous between evaluator-side execution error and genuine software defect. We present DiagEval, a trajectory-conditioned diagnostic evaluation protocol for post-failure GUI-agent evaluation of interactive software. Rather than blindly retrying from scratch, DiagEval reuses the failed trajectory to choose targeted diagnostic probes and aggregates their outcomes into an internal attribution signal. The latent-graph view motivates the diagnostic problem; DiagEval does not reconstruct the graph or estimate calibrated posterior probabilities. We evaluate DiagEval on WebDevJudge-Unit and RealDevBench across multiple GUI-agent evaluators and LLM backbones. On false-negative cases, DiagEval recovers 45.6-62.1% of failures that were initially misattributed to software defects, outperforming retry-based baselines with 34.4-160.6% relative gains. On the full evaluation sets, this recovery improves accuracy from 69.9% to 78.3% on WebDevJudge-Unit and from 65.0% to 81.6% on RealDevBench. These results suggest that reliable GUI-agent evaluation requires not only stronger execution, but also active failure diagnosis to disambiguate evaluator-side errors from genuine software defects. Our code is available at https://github.com/scutGit/DiagEval.
- Abstract(参考訳): LLM生成インタラクティブソフトウェアの評価には,静的解析に加えて実行が必要である。
重要な難点は、正しさは遅延したUI状態遷移グラフよりもグラフレベルの到達可能なプロパティであるのに対して、GUI評価器は単一の実行軌跡のみを観測する。
したがって、ロールアウトが失敗すると、実現した1つのパスのみを除外し、失敗の原因は評価者側の実行エラーと真のソフトウェア欠陥の間に曖昧さを残します。
本稿では,対話型ソフトウェアのGUIエージェント評価のための軌道条件付き診断評価プロトコルであるDiagEvalを提案する。
DiagEvalは、スクラッチから盲目的にリトライするのではなく、失敗した軌道を再利用して、ターゲットの診断プローブを選択し、その結果を内部の属性信号に集約する。
DiagEvalはグラフを再構築したり、調整後の確率を推定したりしない。
WebDevJudge-UnitとRealDevBenchのDiagEvalを複数のGUIエージェント評価器とLCMバックボーンで評価する。
偽陰性の場合、DiagEvalは45.6-62.1%の障害を回復し、当初はソフトウェア欠陥に悪影響を及ぼし、34.4-160.6%の相対的なゲインでリトライベースのベースラインを上回った。
完全な評価セットでは、このリカバリは、WebDevJudge-Unitで69.9%から78.3%に、RealDevBenchで65.0%から81.6%に改善されている。
これらの結果は、信頼性の高いGUIエージェント評価には、より強力な実行を必要とするだけでなく、実際のソフトウェア欠陥から評価者側のエラーを曖昧にするために、アクティブな障害診断が必要であることを示唆している。
私たちのコードはhttps://github.com/scutGit/DiagEval.comで利用可能です。
関連論文リスト
- CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend [2.9612444540570113]
診断フレーミングにおけるブラウザ可視性障害証拠とバックエンド可観測性を組み合わせた最初のベンチマークであるCUJBenchを提案する。
このベンチマークでは、全体的な精度は19.7%、天井は52%、飽和度よりかなり低い。
論文 参考訳(メタデータ) (2026-04-25T22:10:53Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis [0.0]
TDADはソースコードとテスト間の依存性マップを構築し、パッチをコミットする前に、エージェントはどのテストを検証して自己修正するかを知っている。
本稿では,AI符号化エージェントの事前変更影響分析を行うオープンソースツールであるTDADを提案する。
論文 参考訳(メタデータ) (2026-03-18T17:38:22Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models [1.2744523252873348]
FlaXifyerは、事前訓練された言語モデルを使用して、間欠的なジョブ失敗カテゴリを予測するための、数ショットの学習アプローチである。
LogSiftは、影響力のあるログステートメントを1秒未満で識別する、解釈可能性技術である。
TELUSによる2,458件のジョブ障害の評価は、FraXifyerとLogSiftが効果的な自動トリアージを可能にし、障害診断を加速し、断続的なジョブ障害の自動解決への道を開くことを実証している。
論文 参考訳(メタデータ) (2026-01-29T19:34:34Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis [51.88592148135258]
本稿では,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG)を提案する。
HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。
いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8%--31.4%高い精度を達成している。
論文 参考訳(メタデータ) (2025-08-05T12:45:21Z) - Probabilistic Regression for Visual Tracking [193.05958682821444]
本稿では,確率論的回帰定式化を提案し,追跡に適用する。
入力画像が与えられたターゲット状態の条件付き確率密度を予測する。
トラッカーは6つのデータセットに新しい最先端のデータをセットし、LaSOTでは59.8%、TrackingNetでは75.8%のAUCを達成した。
論文 参考訳(メタデータ) (2020-03-27T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。