論文の概要: WAREX: Web Agent Reliability Evaluation on Existing Benchmarks
- arxiv url: http://arxiv.org/abs/2510.03285v1
- Date: Sun, 28 Sep 2025 20:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.713481
- Title: WAREX: Web Agent Reliability Evaluation on Existing Benchmarks
- Title(参考訳): WAREX:既存のベンチマークによるWebエージェントの信頼性評価
- Authors: Su Kara, Fazle Faisal, Suman Nath,
- Abstract要約: 本稿では,既存のベンチマークを用いた Web Agent Reliability Evaluation を提案する。
WebArena、WebVoyager、REALの3つの人気のあるベンチマークでWAREXの影響を測定します。
実験の結果,WAREXの導入はタスク成功率の大幅な低下を招き,最先端エージェントの堅牢性に限界があることが示唆された。
- 参考スコア(独自算出の注目度): 2.3381951994604977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in browser-based LLM agents have shown promise for automating tasks ranging from simple form filling to hotel booking or online shopping. Current benchmarks measure agent performance in controlled environments, such as containers or stable networks, where websites behave deterministically. However, in the real world, users access websites over networks and HTTPS connections that introduce instability from multiple sources: client-side, server-side issues or broader system failures. Moreover, live websites are prone to web attacks such Cross-Site Scripting, as well as general site modifications which can cause unexpected or malicious pop-ups or improper functionality. To address this gap, we present WAREX: Web Agent Reliability Evaluation on Existing Benchmarks. We measure the impact of WAREX across three popular benchmarks: WebArena, WebVoyager, and REAL. Our experiments show that introducing WAREX leads to significant drops in task success rates, highlighting the limited robustness of state-of-the-art agents.
- Abstract(参考訳): ブラウザベースのLCMエージェントの最近の進歩は、簡単なフォームフィリングからホテルの予約、オンラインショッピングまで、タスクを自動化することを約束している。
現在のベンチマークでは、コンテナや安定したネットワークのような制御された環境において、Webサイトが決定論的に振る舞うエージェントのパフォーマンスを測定している。
しかし、現実世界では、クライアント側、サーバ側の問題、より広範なシステム障害など、複数のソースからの不安定性をもたらすネットワークやHTTPS接続を介してWebサイトにアクセスする。
さらに、ライブWebサイトはクロスサイトスクリプティングのようなWeb攻撃や、予期せぬあるいは悪意のあるポップアップや不適切な機能を引き起こす一般的なサイト修正の傾向があります。
このギャップに対処するため,既存のベンチマークにおける Web Agent Reliability Evaluation を提案する。
WebArena、WebVoyager、REALの3つの人気のあるベンチマークでWAREXの影響を測定します。
実験の結果,WAREXの導入はタスク成功率の大幅な低下を招き,最先端エージェントの堅牢性に限界があることが示唆された。
関連論文リスト
- BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - WALT: Web Agents that Learn Tools [66.73502484310121]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。
WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。
VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文 参考訳(メタデータ) (2025-10-01T23:41:47Z) - A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains [23.412858949638263]
電子商取引分野の現在のベンチマークは2つの大きな問題に直面している。
主に製品検索のタスクに重点を置いており、現実世界のeコマースプラットフォームが提供する幅広い機能を捉えていない。
幅広いタスクをカバーするユーザクエリを生成するために,Amazon-Benchという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-18T21:58:43Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [7.4706262500758385]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [61.38499597241457]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z) - ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents [3.09793323158304]
既存のベンチマークは、エージェントがタスクを完了したか、それが安全に行われているか、あるいは企業が信頼できる方法で行われているかを無視するのみである。
textbftextscST-WebAgentBenchを紹介します。
222のタスクはそれぞれ、制約を符号化する簡潔なルールであるSTポリシーと組み合わせられ、6次元(例えば、ユーザの同意、堅牢性)に沿ってスコアされる。
論文 参考訳(メタデータ) (2024-10-09T09:13:38Z) - WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。
このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。
我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文 参考訳(メタデータ) (2024-06-01T00:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。