論文の概要: SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents
- arxiv url: http://arxiv.org/abs/2510.10073v1
- Date: Sat, 11 Oct 2025 07:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.766277
- Title: SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents
- Title(参考訳): SecureWebArena: LVLMベースのWebエージェントのための全体的セキュリティ評価ベンチマーク
- Authors: Zonghao Ying, Yangguang Shao, Jianle Gan, Gan Xu, Junjie Shen, Wenxin Zhang, Quanchen Zou, Junzheng Shi, Zhenfei Yin, Mingchuan Zhang, Aishan Liu, Xianglong Liu,
- Abstract要約: 大規模視覚言語モデル(LVLM)ベースのWebエージェントは、複雑なオンラインタスクを自動化する強力なツールとして登場しつつある。
既存のベンチマークは部分的カバレッジのみを提供し、通常は狭いシナリオに限定される。
LVLMベースのWebエージェントのセキュリティを評価するための,最初の総合的なベンチマークであるツールを提案する。
- 参考スコア(独自算出の注目度): 28.60912756104713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language model (LVLM)-based web agents are emerging as powerful tools for automating complex online tasks. However, when deployed in real-world environments, they face serious security risks, motivating the design of security evaluation benchmarks. Existing benchmarks provide only partial coverage, typically restricted to narrow scenarios such as user-level prompt manipulation, and thus fail to capture the broad range of agent vulnerabilities. To address this gap, we present \tool{}, the first holistic benchmark for evaluating the security of LVLM-based web agents. \tool{} first introduces a unified evaluation suite comprising six simulated but realistic web environments (\eg, e-commerce platforms, community forums) and includes 2,970 high-quality trajectories spanning diverse tasks and attack settings. The suite defines a structured taxonomy of six attack vectors spanning both user-level and environment-level manipulations. In addition, we introduce a multi-layered evaluation protocol that analyzes agent failures across three critical dimensions: internal reasoning, behavioral trajectory, and task outcome, facilitating a fine-grained risk analysis that goes far beyond simple success metrics. Using this benchmark, we conduct large-scale experiments on 9 representative LVLMs, which fall into three categories: general-purpose, agent-specialized, and GUI-grounded. Our results show that all tested agents are consistently vulnerable to subtle adversarial manipulations and reveal critical trade-offs between model specialization and security. By providing (1) a comprehensive benchmark suite with diverse environments and a multi-layered evaluation pipeline, and (2) empirical insights into the security challenges of modern LVLM-based web agents, \tool{} establishes a foundation for advancing trustworthy web agent deployment.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)ベースのWebエージェントは、複雑なオンラインタスクを自動化する強力なツールとして登場しつつある。
しかし、実際の環境にデプロイすると、それらは深刻なセキュリティリスクに直面し、セキュリティ評価ベンチマークの設計を動機付けます。
既存のベンチマークは部分的カバレッジのみを提供し、通常はユーザレベルのプロンプト操作のような狭いシナリオに制限されるため、広範囲のエージェント脆弱性をキャプチャできない。
このギャップに対処するため、LVLMベースのWebエージェントのセキュリティを評価するための最初の総合的なベンチマークである \tool{} を提示する。
最初は、シミュレートされているが現実的な6つのWeb環境(例えば、eコマースプラットフォーム、コミュニティフォーラム)で構成される統一された評価スイートを導入し、多様なタスクとアタック設定にまたがる2,970の高品質なトラジェクトリを含んでいる。
このスイートは、ユーザレベルと環境レベルの操作の両方にまたがる6つの攻撃ベクトルの構造化分類を定義する。
さらに、内部推論、行動軌跡、タスク結果の3つの重要な側面にわたるエージェント障害を分析する多層評価プロトコルを導入し、単純な成功基準をはるかに超越したきめ細かなリスク分析を容易にする。
このベンチマークを用いて,9つの代表LVLMの大規模実験を行い,汎用性,エージェント特化性,GUI接地性という3つのカテゴリに分類した。
実験の結果,全ての試験対象エージェントは微妙な敵操作に対して一貫して脆弱であり,モデル特殊化とセキュリティの間に重要なトレードオフがあることが判明した。
1) 多様な環境と多層評価パイプラインを備えた総合ベンチマークスイートと,(2) 現代のLVLMベースのWebエージェントのセキュリティ課題に関する実証的な洞察を提供することにより, \tool{} は信頼性の高い Web エージェントのデプロイを推進するための基盤を確立する。
関連論文リスト
- OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。