論文の概要: WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks
- arxiv url: http://arxiv.org/abs/2604.06367v1
- Date: Tue, 07 Apr 2026 18:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.188536
- Title: WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks
- Title(参考訳): WebSP-Eval: WebエージェントをWebサイトのセキュリティとプライバシタスクで評価する
- Authors: Guruprasad Viswanathan Ramesh, Asmit Nayak, Basieem Siddique, Kassem Fawaz,
- Abstract要約: WebSP-EvalはWebエージェントのパフォーマンスをWebサイトのセキュリティとプライバシのタスクで測定するための評価フレームワークである。
WebSP-Evalは、1)28のWebサイトにわたる200のタスクインスタンスからなる手作業によるタスクデータセット、2)カスタムのGoogle Chromeエクステンションを使用して実行中のアカウントと初期状態管理をサポートする堅牢なエージェントシステム、3)自動評価器で構成される。
我々は、最先端のマルチモーダル言語モデルを用いて8つのWebエージェントのインスタンス化を評価し、Webサイト、タスクカテゴリ、UI要素間できめ細かい分析を行う。
- 参考スコア(独自算出の注目度): 10.738768990548428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Web agents automate browser tasks, ranging from simple form completion to complex workflows like ordering groceries. While current benchmarks evaluate general-purpose performance~(e.g., WebArena) or safety against malicious actions~(e.g., SafeArena), no existing framework assesses an agent's ability to successfully execute user-facing website security and privacy tasks, such as managing cookie preferences, configuring privacy-sensitive account settings, or revoking inactive sessions. To address this gap, we introduce WebSP-Eval, an evaluation framework for measuring web agent performance on website security and privacy tasks. WebSP-Eval comprises 1) a manually crafted task dataset of 200 task instances across 28 websites; 2) a robust agentic system supporting account and initial state management across runs using a custom Google Chrome extension; and 3) an automated evaluator. We evaluate a total of 8 web agent instantiations using state-of-the-art multimodal large language models, conducting a fine-grained analysis across websites, task categories, and UI elements. Our evaluation reveals that current models suffer from limited autonomous exploration capabilities to reliably solve website security and privacy tasks, and struggle with specific task categories and websites. Crucially, we identify stateful UI elements such as toggles and checkboxes are a primary reason for agent failure, failing at a rate of more than 45\% in tasks containing these elements across many models.
- Abstract(参考訳): Webエージェントは、単純なフォーム補完から食料品の注文のような複雑なワークフローまで、ブラウザタスクを自動化する。
現在のベンチマークでは、汎用パフォーマンス~(例、WebArena)、悪意のあるアクション~(例、SafeArena)に対する安全性を評価しているが、既存のフレームワークでは、クッキーの好みの管理、プライバシに敏感なアカウント設定の設定、アクティブなセッションの無効化といった、Webサイトのセキュリティとプライバシタスクを正常に実行するエージェントの能力を評価していない。
このギャップに対処するため、WebSP-EvalはWebエージェントのパフォーマンスをWebサイトのセキュリティとプライバシタスクで測定するための評価フレームワークである。
WebSP-Eval コンポーネント
1)28のウェブサイトにわたって200のタスクインスタンスを手作業で作成するタスクデータセット。
2) Google Chromeエクステンションを使用して実行中のアカウントと初期状態管理をサポートする堅牢なエージェントシステム。
3)自動評価装置。
我々は、最先端のマルチモーダル言語モデルを用いて8つのWebエージェントのインスタンス化を評価し、Webサイト、タスクカテゴリ、UI要素間できめ細かい分析を行う。
評価の結果,現在のモデルでは,Webサイトのセキュリティとプライバシのタスクを確実に解決し,特定のタスクカテゴリやWebサイトと競合する,限定的な自律探索能力に悩まされていることが明らかとなった。
重要なのは、トグルやチェックボックスのようなステートフルなUI要素がエージェントの失敗の主な原因であり、多くのモデルにまたがるこれらの要素を含むタスクの45倍以上の割合で失敗することです。
関連論文リスト
- WebTrap Park: An Automated Platform for Systematic Security Evaluation of Web Agents [20.440047540224864]
本稿では,Web Agentsのセキュリティ評価のための自動プラットフォームであるWebTrap Parkを紹介する。
WebTrap Parkは3つの主要なセキュリティリスク源を1,226の実行可能な評価タスクにインスタンス化する。
論文 参考訳(メタデータ) (2026-01-13T10:21:28Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。
既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。
FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-10-03T17:41:30Z) - BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - WAREX: Web Agent Reliability Evaluation on Existing Benchmarks [2.3381951994604977]
本稿では,既存のベンチマークを用いた Web Agent Reliability Evaluation を提案する。
WebArena、WebVoyager、REALの3つの人気のあるベンチマークでWAREXの影響を測定します。
実験の結果,WAREXの導入はタスク成功率の大幅な低下を招き,最先端エージェントの堅牢性に限界があることが示唆された。
論文 参考訳(メタデータ) (2025-09-28T20:51:05Z) - A Functionality-Grounded Benchmark for Evaluating Web Agents in E-commerce Domains [23.412858949638263]
電子商取引分野の現在のベンチマークは2つの大きな問題に直面している。
主に製品検索のタスクに重点を置いており、現実世界のeコマースプラットフォームが提供する幅広い機能を捉えていない。
幅広いタスクをカバーするユーザクエリを生成するために,Amazon-Benchという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-18T21:58:43Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents [3.09793323158304]
既存のベンチマークは、エージェントがタスクを完了したか、それが安全に行われているか、あるいは企業が信頼できる方法で行われているかを無視するのみである。
textbftextscST-WebAgentBenchを紹介します。
222のタスクはそれぞれ、制約を符号化する簡潔なルールであるSTポリシーと組み合わせられ、6次元(例えば、ユーザの同意、堅牢性)に沿ってスコアされる。
論文 参考訳(メタデータ) (2024-10-09T09:13:38Z) - WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。
このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。
我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文 参考訳(メタデータ) (2024-06-01T00:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。