論文の概要: Detecting Pipeline Failures through Fine-Grained Analysis of Web Agents
- arxiv url: http://arxiv.org/abs/2509.14382v1
- Date: Wed, 17 Sep 2025 19:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.955165
- Title: Detecting Pipeline Failures through Fine-Grained Analysis of Web Agents
- Title(参考訳): Webエージェントの微細粒度解析によるパイプライン故障の検出
- Authors: Daniel Röder, Akhil Juneja, Roland Roller, Sven Schmeier,
- Abstract要約: この研究は既存のベンチマークを分析し、きめ細かい診断ツールの欠如を強調している。
本稿では,エージェントパイプラインを解釈可能なステージに分解し,詳細なエラー解析を行うモジュール評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.48156730450374763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents powered by large language models (LLMs) can autonomously perform complex, multistep tasks in dynamic web environments. However, current evaluations mostly focus on the overall success while overlooking intermediate errors. This limits insight into failure modes and hinders systematic improvement. This work analyzes existing benchmarks and highlights the lack of fine-grained diagnostic tools. To address this gap, we propose a modular evaluation framework that decomposes agent pipelines into interpretable stages for detailed error analysis. Using the SeeAct framework and the Mind2Web dataset as a case study, we show how this approach reveals actionable weaknesses missed by standard metrics - paving the way for more robust and generalizable web agents.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したWebエージェントは、動的Web環境で複雑なマルチステップタスクを自律的に実行することができる。
しかしながら、現在の評価は主に、中間エラーを見落としながら、全体的な成功に焦点を当てている。
これにより、障害モードに対する洞察が制限され、体系的な改善が妨げられます。
この研究は既存のベンチマークを分析し、きめ細かい診断ツールの欠如を強調している。
このギャップに対処するために,エージェントパイプラインを解釈可能なステージに分解し,詳細なエラー解析を行うモジュール評価フレームワークを提案する。
SeeActフレームワークとMind2Webデータセットをケーススタディとして、このアプローチが標準メトリクスで見逃された実行可能な弱点をいかに明らかにするかを示します。
関連論文リスト
- An Empirical Study on Failures in Automated Issue Solving [12.571536148821144]
我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
論文 参考訳(メタデータ) (2025-09-17T13:07:52Z) - LLMShot: Reducing snapshot testing maintenance via LLMs [0.5218155982819203]
スナップショットテストは、現代のソフトウェア開発におけるUIバリデーションの重要なテクニックとして登場した。
本稿では、VLM(Vision-Language Models)を利用して、スナップショットテストの失敗を自動的に解析する新しいフレームワークであるLLMShotを紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:47:19Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [7.4706262500758385]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Research on the Application of Spark Streaming Real-Time Data Analysis System and large language model Intelligent Agents [1.4582633500696451]
本研究では、ビッグデータ環境におけるリアルタイムデータ分析システムを強化するために、Agent AIとLangGraphの統合について検討する。
提案したフレームワークは、静的で非効率なステートフル計算の限界を克服し、人間の介入の欠如を克服する。
システムアーキテクチャにはApache Spark Streaming、Kafka、LangGraphが組み込まれ、高性能な感情分析システムを構築する。
論文 参考訳(メタデータ) (2024-12-10T05:51:11Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。