論文の概要: WebGuard: Building a Generalizable Guardrail for Web Agents
- arxiv url: http://arxiv.org/abs/2507.14293v1
- Date: Fri, 18 Jul 2025 18:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.820519
- Title: WebGuard: Building a Generalizable Guardrail for Web Agents
- Title(参考訳): WebGuard: Webエージェントのための一般化可能なガードレールの構築
- Authors: Boyuan Zheng, Zeyi Liao, Scott Salisbury, Zeyuan Liu, Michael Lin, Qinyuan Zheng, Zifan Wang, Xiang Deng, Dawn Song, Huan Sun, Yu Su,
- Abstract要約: WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
- 参考スコア(独自算出の注目度): 59.31116061613742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of autonomous web agents powered by Large Language Models (LLMs), while greatly elevating efficiency, exposes the frontier risk of taking unintended or harmful actions. This situation underscores an urgent need for effective safety measures, akin to access controls for human users. To address this critical challenge, we introduce WebGuard, the first comprehensive dataset designed to support the assessment of web agent action risks and facilitate the development of guardrails for real-world online environments. In doing so, WebGuard specifically focuses on predicting the outcome of state-changing actions and contains 4,939 human-annotated actions from 193 websites across 22 diverse domains, including often-overlooked long-tail websites. These actions are categorized using a novel three-tier risk schema: SAFE, LOW, and HIGH. The dataset includes designated training and test splits to support evaluation under diverse generalization settings. Our initial evaluations reveal a concerning deficiency: even frontier LLMs achieve less than 60% accuracy in predicting action outcomes and less than 60% recall in lagging HIGH-risk actions, highlighting the risks of deploying current-generation agents without dedicated safeguards. We therefore investigate fine-tuning specialized guardrail models using WebGuard. We conduct comprehensive evaluations across multiple generalization settings and find that a fine-tuned Qwen2.5VL-7B model yields a substantial improvement in performance, boosting accuracy from 37% to 80% and HIGH-risk action recall from 20% to 76%. Despite these improvements, the performance still falls short of the reliability required for high-stakes deployment, where guardrails must approach near-perfect accuracy and recall.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した自律型Webエージェントの急速な開発は、効率を大幅に高める一方で、意図しないあるいは有害な行動をとることのフロンティアリスクを露呈する。
この状況は、人間のコントロールへのアクセスのような、効果的な安全対策の緊急の必要性を浮き彫りにしている。
この重要な課題に対処するために、WebGuardを紹介します。これは、Webエージェントのアクションリスクの評価をサポートし、現実世界のオンライン環境におけるガードレールの開発を促進するために設計された、最初の包括的なデータセットです。
そのためにWebGuardは、州が変更するアクションの結果を予測することに特化しており、22のドメインにわたる193のWebサイトからの4,939の人間によるアノテートアクションが含まれている。
これらのアクションは、SAFE、LOW、Highという3層リスクスキーマを使用して分類される。
データセットには、さまざまな一般化設定下での評価をサポートするための、指定されたトレーニングとテストスプリットが含まれている。
我々の初期評価では、フロンティアLSMでさえ、行動結果の予測において60%未満の精度を達成し、ハイリスクアクションの遅延において60%未満のリコールを達成し、専用の安全装置を使わずに現世代のエージェントを配置するリスクを浮き彫りにした。
そこで本研究では,WebGuardを用いた特別ガードレールモデルについて検討する。
複数の一般化設定に対して総合的な評価を行い、微調整したQwen2.5VL-7Bモデルでは性能が大幅に向上し、精度が37%から80%に向上し、ハイリスク動作リコールが20%から76%に向上した。
これらの改善にもかかわらず、ガードレールがほぼ完全な精度とリコールに近づかなければならず、ハイステークデプロイメントに必要な信頼性には相変わらず性能は劣っている。
関連論文リスト
- Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking [8.970702398918924]
大規模言語モデル(LLM)エージェントは、ロボット工学、仮想アシスタント、Webオートメーションといった分野にまたがる強力な自律能力を示す。
AgentSpecのような既存のルールベースの執行システムは、リアクティブな安全ルールの開発に重点を置いている。
本稿では,確率的到達可能性解析に基づくプロアクティブ実行時実行フレームワークPro2Guardを提案する。
論文 参考訳(メタデータ) (2025-08-01T10:24:47Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Tiered Agentic Oversight: A Hierarchical Multi-Agent System for AI Safety in Healthcare [43.75158832964138]
Tiered Agentic Oversight(TAO)は階層的なマルチエージェントフレームワークで、階層化された自動監視を通じてAIの安全性を高める。
臨床階層(看護師、医師、専門家など)にインスパイアされたTAOは、タスクの複雑さとエージェントの役割に基づいてエージェントルーティングを実行する。
論文 参考訳(メタデータ) (2025-06-14T12:46:10Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization [74.78433600288776]
HKVE (Hierarchical Key-Value Equalization) は、勾配最適化結果を選択的に受け入れる革新的なジェイルブレイクフレームワークである。
HKVEは既存の手法を20.43%,21.01%,26.43%のマージンで大幅に上回った。
論文 参考訳(メタデータ) (2025-03-14T17:57:42Z) - SafeArena: Evaluating the Safety of Autonomous Web Agents [65.49740046281116]
LLMベースのエージェントは、Webベースのタスクの解決に精通している。
この能力により、悪意のある目的のために誤用されるリスクが高まる。
我々は、Webエージェントの意図的に誤用に焦点を当てた最初のベンチマークであるSafeArenaを提案する。
論文 参考訳(メタデータ) (2025-03-06T20:43:14Z) - AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。
強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。
慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。