論文の概要: ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents
- arxiv url: http://arxiv.org/abs/2410.06703v4
- Date: Mon, 19 May 2025 08:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.257637
- Title: ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents
- Title(参考訳): ST-WebAgentBench: Webエージェントの安全性と信頼性を評価するベンチマーク
- Authors: Ido Levy, Ben Wiesel, Sami Marreed, Alon Oved, Avi Yaeli, Segev Shlomov,
- Abstract要約: 既存のベンチマークは、エージェントがタスクを完了したか、それが安全に行われているか、あるいは企業が信頼できる方法で行われているかを無視するのみである。
textbftextscST-WebAgentBenchを紹介します。
222のタスクはそれぞれ、制約を符号化する簡潔なルールであるSTポリシーと組み合わせられ、6次元(例えば、ユーザの同意、堅牢性)に沿ってスコアされる。
- 参考スコア(独自算出の注目度): 3.09793323158304
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autonomous web agents solve complex browsing tasks, yet existing benchmarks measure only whether an agent finishes a task, ignoring whether it does so safely or in a way enterprises can trust. To integrate these agents into critical workflows, safety and trustworthiness (ST) are prerequisite conditions for adoption. We introduce \textbf{\textsc{ST-WebAgentBench}}, a configurable and easily extensible suite for evaluating web agent ST across realistic enterprise scenarios. Each of its 222 tasks is paired with ST policies, concise rules that encode constraints, and is scored along six orthogonal dimensions (e.g., user consent, robustness). Beyond raw task success, we propose the \textit{Completion Under Policy} (\textit{CuP}) metric, which credits only completions that respect all applicable policies, and the \textit{Risk Ratio}, which quantifies ST breaches across dimensions. Evaluating three open state-of-the-art agents reveals that their average CuP is less than two-thirds of their nominal completion rate, exposing critical safety gaps. By releasing code, evaluation templates, and a policy-authoring interface, \href{https://sites.google.com/view/st-webagentbench/home}{\textsc{ST-WebAgentBench}} provides an actionable first step toward deploying trustworthy web agents at scale.
- Abstract(参考訳): 自律的なWebエージェントは複雑なブラウジングタスクを解決しますが、既存のベンチマークは、エージェントがタスクを終了するかどうかのみを測定します。
これらのエージェントを重要なワークフローに統合するには、安全と信頼性(ST)が適用の前提条件である。
我々は,現実的なエンタープライズシナリオにおいて,WebエージェントSTを評価するための,構成可能で容易に拡張可能なスイートである \textbf{\textsc{ST-WebAgentBench}} を紹介した。
222のタスクはそれぞれ、制約を符号化する簡潔なルールであるSTポリシーと組み合わせられ、6つの直交次元(例えば、ユーザの同意、堅牢性)に沿ってスコア付けされる。
生タスクの成功以外にも、適用可能なすべてのポリシーを尊重する完了のみを信用する \textit{Completion Under Policy} (\textit{CuP}) メトリックと、次元にわたってST違反を定量化する \textit{Risk Ratio} を提案する。
3つのオープン・オブ・ザ・アート・エージェントを評価すると、彼らの平均CuPは名目上の完成率の3分の2以下であり、重大な安全性のギャップを露呈している。
コード、評価テンプレート、およびポリシーオーサリングインターフェースをリリースすることによって、信頼性の高いWebエージェントを大規模にデプロイするための実行可能な第一歩を提供する。
関連論文リスト
- REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - SafeArena: Evaluating the Safety of Autonomous Web Agents [65.49740046281116]
LLMベースのエージェントは、Webベースのタスクの解決に精通している。
この能力により、悪意のある目的のために誤用されるリスクが高まる。
我々は、Webエージェントの意図的に誤用に焦点を当てた最初のベンチマークであるSafeArenaを提案する。
論文 参考訳(メタデータ) (2025-03-06T20:43:14Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control [20.796190000442053]
デバイス制御エージェントの安全性を評価するためのベンチマークであるMobileSafetyBenchを紹介する。
メッセージングやバンキングアプリケーションを含む,さまざまなモバイルアプリケーションとのインタラクションに関わる,さまざまなタスクセットを開発します。
実験の結果,現状のLDMをベースとしたベースラインエージェントは,有効なタスクの実行において良好に機能するが,安全タスクでは性能が劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-23T02:51:43Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Building a Cybersecurity Risk Metamodel for Improved Method and Tool Integration [0.38073142980732994]
我々は,初期リスク分析にモデル駆動アプローチを適用した経験を,その後のセキュリティテストに関連して報告する。
私たちの仕事は、さまざまなツール間で情報のトレーサビリティをマップ、同期、保証するために使用される共通のメタモデルに依存しています。
論文 参考訳(メタデータ) (2024-09-12T10:18:26Z) - Athena: Safe Autonomous Agents with Verbal Contrastive Learning [3.102303947219617]
大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。
本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。
このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
論文 参考訳(メタデータ) (2024-08-20T17:21:10Z) - Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems [1.079505444748609]
本稿では,新しいWebエージェントであるAgent-Eの構築について紹介する。
Agent-Eは、最先端のWebエージェントよりも多くのアーキテクチャ改善を導入している。
我々は,Agent-Eが他のSOTAテキストおよびマルチモーダルWebエージェントを,ほとんどのカテゴリで10~30%上回っていることを示す。
論文 参考訳(メタデータ) (2024-07-17T21:44:28Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。