論文の概要: CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend
- arxiv url: http://arxiv.org/abs/2604.23455v2
- Date: Fri, 01 May 2026 07:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:10.820981
- Title: CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend
- Title(参考訳): CUJBench: LLM-Agentベンチマークによるブラウザからバックエンドへのクロスモーダル障害診断
- Authors: Haoming Meng,
- Abstract要約: 診断フレーミングにおけるブラウザ可視性障害証拠とバックエンド可観測性を組み合わせた最初のベンチマークであるCUJBenchを提案する。
このベンチマークでは、全体的な精度は19.7%、天井は52%、飽和度よりかなり低い。
- 参考スコア(独自算出の注目度): 2.9612444540570113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated failure diagnosis requires correlating browser-visible symptoms with backend observability signals, yet existing benchmarks do not evaluate this cross-modal reasoning task. Constructing one is non-trivial: multi-modal failure scenarios are costly to annotate, and live-environment capture introduces stochasticity that makes cross-run agent comparison unreliable. We present CUJBench, to our knowledge, the first benchmark to combine browser-visible failure evidence with backend observability in a diagnostic framing. CUJBench addresses annotation cost through an LLM-assisted generation pipeline with a multi-agent review loop and a three-layer annotation scheme, producing 87 labeled scenarios across five fault families, and ensures reproducibility by packaging each failure as a deterministic multi-modal snapshot with a fixed tool interface. Evaluating six frontier models under retrieval, browser-only, and full-toolset baselines, the benchmark yields an overall accuracy of 19.7% with a ceiling of 52%, well below saturation. Contrary to expectation, browser-only agents outperform full-toolset agents in aggregate, with expanded evidence access inducing unfocused exploration rather than improved synthesis. Trajectory analysis identifies cross-modal synthesis as the primary bottleneck: agents retrieve the decisive evidence but fail to attribute it correctly - a structural limitation uniform across all six models that model scale and richer tool access alone cannot resolve.
- Abstract(参考訳): 自動障害診断には、ブラウザ可視症状とバックエンドの可観測性信号との関連性が必要であるが、既存のベンチマークでは、このクロスモーダル推論タスクを評価していない。
マルチモーダル障害シナリオはアノテートするのにコストがかかり、ライブ環境のキャプチャは、クロスランエージェントの比較を信頼性の低いものにする確率を導入します。
CUJBenchは、診断フレーミングにおけるブラウザ可視の障害証拠とバックエンドの可観測性を組み合わせた最初のベンチマークである。
CUJBenchは、マルチエージェントレビューループと3層アノテーションスキームを備えたLLM支援ジェネレーションパイプラインを通じてアノテーションコストに対処し、5つのフォールトファミリに87のラベル付きシナリオを生成し、各障害を決定論的マルチモーダルスナップショットとして固定ツールインターフェースでパッケージすることで再現性を確保する。
検索中の6つのフロンティアモデル、ブラウザのみ、フルツールセットのベースラインを評価すると、ベンチマーク全体の精度は19.7%、天井は52%、飽和度よりかなり低い。
期待に反して、ブラウザのみのエージェントは完全なツールセットエージェントよりも優れており、合成を改善するのではなく、非集中的な探索を誘発するエビデンスへのアクセスが拡大している。
エージェントは決定的な証拠を回収するが、正しく属性付けできない - スケールをモデル化し、よりリッチなツールアクセスだけでは解決できない6つのモデルすべてに、構造的な制限が一様である。
関連論文リスト
- Missing-Aware Multimodal Fusion for Unified Microservice Incident Management [22.703696384749595]
ARMORは、モダリティの欠如を前提とした、自己管理型のフレームワークである。
自己監督型自己回帰とマスク誘導型再構成を用いて、異常検出、障害トリアージ、根本原因の局在を共同で最適化する。
完全なデータ条件下での最先端性能を実現し、厳密なモダリティ損失でも堅牢な診断精度を維持する。
論文 参考訳(メタデータ) (2026-03-26T15:14:57Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。