論文の概要: StressWeb: A Diagnostic Benchmark for Web Agent Robustness under Realistic Interaction Variability
- arxiv url: http://arxiv.org/abs/2604.16385v1
- Date: Fri, 27 Mar 2026 02:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.950164
- Title: StressWeb: A Diagnostic Benchmark for Web Agent Robustness under Realistic Interaction Variability
- Title(参考訳): StressWeb: 現実的な相互作用変数下でのWebエージェントロバストネスの診断ベンチマーク
- Authors: Haoyue Bai, Dong Wang, Long Chen, Bingguang Hao, Pengyang Shao, Yonghui Yang, Yicheng He, Chenyi Zhuang,
- Abstract要約: 本稿では,Webエージェントに対する診断ストレステストベンチマークを提案する。
ストレスに基づく評価は、クリーンなベンチマーク条件下で隠れたままの障害モードとかなりの堅牢さのギャップを明らかにする。
- 参考スコア(独自算出の注目度): 19.48798134080834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model-based web agents have demonstrated strong performance on realistic web interaction tasks. However, existing evaluations are predominantly conducted under relatively stable and well-behaved interaction conditions, which may overestimate agent robustness. High task success in such idealized settings does not necessarily reflect performance under realistic web interaction. To address this limitation, we introduce a diagnostic stress-testing benchmark for web agents. We first construct realistic and controllable web environments that provide clean and stable interaction workflows as reference baselines. We then introduce structured and controlled perturbations that emulate interaction variability, including shifting layouts, altered interaction semantics, and execution disruptions. By comparing agent behavior between clean and perturbed settings, our framework enables systematic diagnosis of robustness under what-if interaction scenarios. Through extensive evaluation of state-of-the-art multimodal web agents, we show that stress-based evaluation exposes failure modes and substantial robustness gaps that remain hidden under clean benchmark conditions.
- Abstract(参考訳): 大規模言語モデルに基づくWebエージェントは、現実的なWebインタラクションタスクに強いパフォーマンスを示してきた。
しかし,既存の評価は比較的安定かつ良好な相互作用条件下で実施され,エージェントの強靭性を過大評価する可能性がある。
このような理想的な環境でのタスクの成功は、必ずしも現実的なWebインタラクション下でのパフォーマンスを反映するとは限らない。
この制限に対処するために、Webエージェントのための診断ストレステストベンチマークを導入する。
まず、クリーンで安定したインタラクションワークフローを基準ベースラインとして提供する、現実的で制御可能なWeb環境を構築します。
次に、レイアウトのシフト、相互作用のセマンティクスの変更、実行の中断など、相互作用の変動をエミュレートする構造的および制御された摂動を導入する。
クリーンな環境と摂動的な環境下でのエージェントの挙動を比較することにより, 相互作用シナリオ下でのロバストネスの体系的診断が可能となる。
最新のマルチモーダルWebエージェントを広範囲に評価することにより、ストレスに基づく評価は、クリーンなベンチマーク条件下で隠された障害モードとかなりの堅牢性ギャップを露呈することを示す。
関連論文リスト
- InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation? [20.180246350877045]
実世界の開発は、非専門家からの曖昧で低品質な命令とモデル理解のセマンティックなミスアライメントという、重要なボトルネックによって制約されている。
InactWeb-Benchは、未経験の低コードユーザ条件下でWebサイト生成のための最初のマルチモーダル対話型ベンチマークである。
論文 参考訳(メタデータ) (2026-04-30T04:49:34Z) - Adversarial Moral Stress Testing of Large Language Models [6.225703352031606]
本稿では, 対人多ラウンド相互作用下での倫理的堅牢性を評価するためのストレスベース評価フレームワーク, AMSTを紹介する。
我々は,LLaMA-3-8B,GPT-4o,DeepSeek-v3を含む最先端LLMにおけるAMSTの評価を行った。
論文 参考訳(メタデータ) (2026-04-01T16:34:20Z) - From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality [62.43165871914528]
我々は、Web開発におけるLCM-as-a-judgeのパフォーマンスを評価するための体系的なベンチマークであるWebDevJudgeを紹介する。
WebDevJudgeは、構造化およびクエリグラウンドのルーリックで注釈付けされた、ペア化されたWeb実装よりも人間の好みラベルで構成されている。
詳細な分析によると、このギャップは、機能的同値性認識の失敗、タスク実現可能性の検証、バイアス軽減など、基本的なモデル上の制限に由来する。
論文 参考訳(メタデータ) (2025-10-21T12:16:04Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [7.4706262500758385]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。