論文の概要: WebGuard: Building a Generalizable Guardrail for Web Agents
- arxiv url: http://arxiv.org/abs/2507.14293v1
- Date: Fri, 18 Jul 2025 18:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.820519
- Title: WebGuard: Building a Generalizable Guardrail for Web Agents
- Title(参考訳): WebGuard: Webエージェントのための一般化可能なガードレールの構築
- Authors: Boyuan Zheng, Zeyi Liao, Scott Salisbury, Zeyuan Liu, Michael Lin, Qinyuan Zheng, Zifan Wang, Xiang Deng, Dawn Song, Huan Sun, Yu Su,
- Abstract要約: WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
- 参考スコア(独自算出の注目度): 59.31116061613742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of autonomous web agents powered by Large Language Models (LLMs), while greatly elevating efficiency, exposes the frontier risk of taking unintended or harmful actions. This situation underscores an urgent need for effective safety measures, akin to access controls for human users. To address this critical challenge, we introduce WebGuard, the first comprehensive dataset designed to support the assessment of web agent action risks and facilitate the development of guardrails for real-world online environments. In doing so, WebGuard specifically focuses on predicting the outcome of state-changing actions and contains 4,939 human-annotated actions from 193 websites across 22 diverse domains, including often-overlooked long-tail websites. These actions are categorized using a novel three-tier risk schema: SAFE, LOW, and HIGH. The dataset includes designated training and test splits to support evaluation under diverse generalization settings. Our initial evaluations reveal a concerning deficiency: even frontier LLMs achieve less than 60% accuracy in predicting action outcomes and less than 60% recall in lagging HIGH-risk actions, highlighting the risks of deploying current-generation agents without dedicated safeguards. We therefore investigate fine-tuning specialized guardrail models using WebGuard. We conduct comprehensive evaluations across multiple generalization settings and find that a fine-tuned Qwen2.5VL-7B model yields a substantial improvement in performance, boosting accuracy from 37% to 80% and HIGH-risk action recall from 20% to 76%. Despite these improvements, the performance still falls short of the reliability required for high-stakes deployment, where guardrails must approach near-perfect accuracy and recall.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した自律型Webエージェントの急速な開発は、効率を大幅に高める一方で、意図しないあるいは有害な行動をとることのフロンティアリスクを露呈する。
この状況は、人間のコントロールへのアクセスのような、効果的な安全対策の緊急の必要性を浮き彫りにしている。
この重要な課題に対処するために、WebGuardを紹介します。これは、Webエージェントのアクションリスクの評価をサポートし、現実世界のオンライン環境におけるガードレールの開発を促進するために設計された、最初の包括的なデータセットです。
そのためにWebGuardは、州が変更するアクションの結果を予測することに特化しており、22のドメインにわたる193のWebサイトからの4,939の人間によるアノテートアクションが含まれている。
これらのアクションは、SAFE、LOW、Highという3層リスクスキーマを使用して分類される。
データセットには、さまざまな一般化設定下での評価をサポートするための、指定されたトレーニングとテストスプリットが含まれている。
我々の初期評価では、フロンティアLSMでさえ、行動結果の予測において60%未満の精度を達成し、ハイリスクアクションの遅延において60%未満のリコールを達成し、専用の安全装置を使わずに現世代のエージェントを配置するリスクを浮き彫りにした。
そこで本研究では,WebGuardを用いた特別ガードレールモデルについて検討する。
複数の一般化設定に対して総合的な評価を行い、微調整したQwen2.5VL-7Bモデルでは性能が大幅に向上し、精度が37%から80%に向上し、ハイリスク動作リコールが20%から76%に向上した。
これらの改善にもかかわらず、ガードレールがほぼ完全な精度とリコールに近づかなければならず、ハイステークデプロイメントに必要な信頼性には相変わらず性能は劣っている。
関連論文リスト
- When Bots Take the Bait: Exposing and Mitigating the Emerging Social Engineering Attack in Web Automation Agent [20.98129117390391]
本稿では,Webオートメーションエージェントに対する社会工学的攻撃に関する最初の体系的研究について述べる。
本稿では,エージェント実行における本質的な弱点を利用したエージェントベイトパラダイムを提案する。
本稿では,環境意図と整合性を考慮した軽量ランタイムモジュールSUPERVISORを提案する。
論文 参考訳(メタデータ) (2026-01-12T07:10:08Z) - ProGuard: Towards Proactive Multimodal Safeguard [48.89789547707647]
ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
論文 参考訳(メタデータ) (2025-12-29T16:13:23Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - Automated Red-Teaming Framework for Large Language Model Security Assessment: A Comprehensive Attack Generation and Detection System [4.864011355064205]
本稿では,大規模言語モデル(LLM)におけるセキュリティ脆弱性を明らかにするための,敵のプロンプトを生成し,実行し,評価する自動リピートフレームワークを提案する。
本フレームワークは,メタプロンプトに基づく攻撃合成,マルチモーダル脆弱性検出,および6つの主要な脅威カテゴリにまたがる標準化された評価プロトコルを統合する。
GPT-OSS-20Bモデルの実験では、21の重大度と12の新たな攻撃パターンを含む47の異なる脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-12-21T19:12:44Z) - Death by a Thousand Prompts: Open Model Vulnerability Analysis [0.06213771671016099]
オープンウェイトモデルは、研究者や開発者に対して、さまざまなダウンストリームアプリケーションの基礎を提供します。
8つのオープンウェイトな大規模言語モデル(LLM)の安全性とセキュリティの姿勢をテストし、その後の微調整とデプロイメントに影響を与える可能性のある脆弱性を特定しました。
以上の結果から, マルチターン攻撃による成功率は25.86%から92.78%であった。
論文 参考訳(メタデータ) (2025-11-05T07:22:24Z) - AI Kill Switch for malicious web-based LLM agent [4.144114850905779]
本稿では、悪意のあるWebベースのLLMエージェントの動作を停止できるAI Kill Switch技術を提案する。
鍵となるアイデアは、悪意のあるLLMエージェントの安全メカニズムをトリガーする防御的なプロンプトを生成することだ。
AutoGuardは、さまざまな悪意のあるエージェントに対して80%以上の防衛成功率(DSR)を達成する。
論文 参考訳(メタデータ) (2025-09-26T02:20:46Z) - Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking [8.970702398918924]
大規模言語モデル(LLM)エージェントは、ロボット工学、仮想アシスタント、Webオートメーションといった分野にまたがる強力な自律能力を示す。
AgentSpecのような既存のルールベースの執行システムは、リアクティブな安全ルールの開発に重点を置いている。
本稿では,確率的到達可能性解析に基づくプロアクティブ実行時実行フレームワークPro2Guardを提案する。
論文 参考訳(メタデータ) (2025-08-01T10:24:47Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Tiered Agentic Oversight: A Hierarchical Multi-Agent System for AI Safety in Healthcare [43.75158832964138]
Tiered Agentic Oversight(TAO)は階層的なマルチエージェントフレームワークで、階層化された自動監視を通じてAIの安全性を高める。
臨床階層(看護師、医師、専門家など)にインスパイアされたTAOは、タスクの複雑さとエージェントの役割に基づいてエージェントルーティングを実行する。
論文 参考訳(メタデータ) (2025-06-14T12:46:10Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization [74.78433600288776]
HKVE (Hierarchical Key-Value Equalization) は、勾配最適化結果を選択的に受け入れる革新的なジェイルブレイクフレームワークである。
HKVEは既存の手法を20.43%,21.01%,26.43%のマージンで大幅に上回った。
論文 参考訳(メタデータ) (2025-03-14T17:57:42Z) - SafeArena: Evaluating the Safety of Autonomous Web Agents [65.49740046281116]
LLMベースのエージェントは、Webベースのタスクの解決に精通している。
この能力により、悪意のある目的のために誤用されるリスクが高まる。
我々は、Webエージェントの意図的に誤用に焦点を当てた最初のベンチマークであるSafeArenaを提案する。
論文 参考訳(メタデータ) (2025-03-06T20:43:14Z) - AdvAgent: Controllable Blackbox Red-teaming on Web Agents [22.682464365220916]
AdvAgentは、Webエージェントを攻撃するためのブラックボックスのレッドチームフレームワークである。
強化学習に基づくパイプラインを使用して、敵のプロンプトモデルをトレーニングする。
慎重な攻撃設計では、エージェントの弱点を効果的に活用し、ステルス性と制御性を維持する。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。