Fugu-MT 論文翻訳(概要): ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents

論文の概要: ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents

arxiv url: http://arxiv.org/abs/2410.06703v3
Date: Tue, 03 Dec 2024 08:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.036618
Title: ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents
Title（参考訳）: ST-WebAgentBench: Webエージェントの安全性と信頼性を評価するベンチマーク
Authors: Ido Levy, Ben Wiesel, Sami Marreed, Alon Oved, Avi Yaeli, Segev Shlomov,
Abstract要約: 本稿では,Webエージェントの安全性と信頼性を6つの重要な次元にわたって評価するベンチマークSTWebAgentBenchを提案する。このベンチマークは、セーフで信頼できる(ST)エージェントの振る舞いを定義する詳細なフレームワークに基づいている。私たちはこのベンチマークをオープンソース化し、新しい世代の安全で信頼性の高いAIエージェントを育成することを目的として、コミュニティにコントリビューションを呼びかけます。
参考スコア（独自算出の注目度）: 3.09793323158304
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advancements in Web agents have introduced novel architectures and benchmarks showcasing progress in autonomous web navigation and interaction. However, most existing benchmarks prioritize effectiveness and accuracy, overlooking factors like safety and trustworthiness which are essential for deploying web agents in enterprise settings. We present STWebAgentBench, a benchmark designed to evaluate web agents safety and trustworthiness across six critical dimensions, essential for reliability in enterprise applications. This benchmark is grounded in a detailed framework that defines safe and trustworthy (ST) agent behavior. Our work extends WebArena with safety templates and evaluation functions to assess safety policy compliance rigorously. We introduce the Completion Under Policy to measure task success while adhering to policies, alongside the Risk Ratio, which quantifies policy violations across dimensions, providing actionable insights to address safety gaps. Our evaluation reveals that current SOTA agents struggle with policy adherence and cannot yet be relied upon for critical business applications. We open-source this benchmark and invite the community to contribute, with the goal of fostering a new generation of safer, more trustworthy AI agents. All code, data, environment reproduction resources, and video demonstrations are available at https://sites.google.com/view/st-webagentbench/home.
Abstract（参考訳）: Webエージェントの最近の進歩は、自律的なWebナビゲーションとインタラクションの進歩を示す新しいアーキテクチャとベンチマークを導入している。しかし、既存のベンチマークのほとんどは、エンタープライズ環境でWebエージェントをデプロイするのに必須の安全性や信頼性といった要素を見越して、有効性と正確性を優先している。企業アプリケーションにおいて信頼性に欠かせない6つの重要な側面において、Webエージェントの安全性と信頼性を評価するためのベンチマークであるSTWebAgentBenchを提示する。このベンチマークは、セーフで信頼できる(ST)エージェントの振る舞いを定義する詳細なフレームワークに基づいている。本研究は,WebArenaを安全テンプレートと評価機能で拡張し,安全ポリシーコンプライアンスを厳格に評価する。安全ギャップに対処するための実用的な洞察を提供するとともに、政策を順守しながらタスク成功度を計測する「完成下政策」を導入する。我々の評価は、現在のSOTAエージェントが政策遵守に苦慮し、重要なビジネスアプリケーションにはまだ頼っていないことを示している。私たちはこのベンチマークをオープンソース化し、新しい世代の安全で信頼性の高いAIエージェントを育成することを目的として、コミュニティにコントリビューションを呼びかけます。すべてのコード、データ、環境再生リソース、ビデオデモはhttps://sites.google.com/view/st-webagentbench/home.comで公開されている。

関連論文リスト

WebTrap Park: An Automated Platform for Systematic Security Evaluation of Web Agents [20.440047540224864]
本稿では,Web Agentsのセキュリティ評価のための自動プラットフォームであるWebTrap Parkを紹介する。 WebTrap Parkは3つの主要なセキュリティリスク源を1,226の実行可能な評価タスクにインスタンス化する。
論文参考訳（メタデータ） (2026-01-13T10:21:28Z)
It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文参考訳（メタデータ） (2025-12-29T01:09:10Z)
SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents [28.60912756104713]
大規模視覚言語モデル(LVLM)ベースのWebエージェントは、複雑なオンラインタスクを自動化する強力なツールとして登場しつつある。既存のベンチマークは部分的カバレッジのみを提供し、通常は狭いシナリオに限定される。 LVLMベースのWebエージェントのセキュリティを評価するための,最初の総合的なベンチマークであるツールを提案する。
論文参考訳（メタデータ） (2025-10-11T07:18:12Z)
Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文参考訳（メタデータ） (2025-10-06T18:09:02Z)
SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios [17.276786247873613]
SecureAgentBenchは、セキュアなコード生成において、コードエージェントの機能を厳格に評価するために設計された105のコーディングタスクのベンチマークである。その結果、(i)現在のエージェントがセキュアなコードを生成するのに苦労していることが示され、最高のパフォーマンスのエージェントであるDeepSeek-V3.1がサポートしているSWE-agentも15.2%の正安のソリューションしか達成していない。
論文参考訳（メタデータ） (2025-09-26T09:18:57Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
A Systematization of Security Vulnerabilities in Computer Use Agents [1.3560089220432787]
我々は、現実のCUAのシステム的脅威分析と、敵条件下でのテストを行う。 CUAパラダイム特有のリスクのクラスを7つ同定し、3つの具体的なエクスプロイトシナリオを詳細に分析する。これらのケーススタディは、現在のCUA実装にまたがるより深いアーキテクチャ上の欠陥を明らかにします。
論文参考訳（メタデータ） (2025-07-07T19:50:21Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文参考訳（メタデータ） (2025-04-15T18:22:55Z)
Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。 GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文参考訳（メタデータ） (2025-03-30T13:26:00Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
SafeArena: Evaluating the Safety of Autonomous Web Agents [65.49740046281116]
LLMベースのエージェントは、Webベースのタスクの解決に精通している。この能力により、悪意のある目的のために誤用されるリスクが高まる。我々は、Webエージェントの意図的に誤用に焦点を当てた最初のベンチマークであるSafeArenaを提案する。
論文参考訳（メタデータ） (2025-03-06T20:43:14Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
既存のベンチマークは主に重要な安全リスクを見落とし、パフォーマンスの計画に集中しています。我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを提案する。 SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な、多種多様で高品質なデータセット、(2)低レベルコントローラを備えた普遍的な実施環境であるSafeAgentEnvは、8つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートし、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法である。
論文参考訳（メタデータ） (2024-12-17T18:55:58Z)
Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (2024-10-30T17:35:44Z)
MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control [20.796190000442053]
デバイス制御エージェントの安全性を評価するためのベンチマークであるMobileSafetyBenchを紹介する。メッセージングやバンキングアプリケーションを含む,さまざまなモバイルアプリケーションとのインタラクションに関わる,さまざまなタスクセットを開発します。実験の結果,現状のLDMをベースとしたベースラインエージェントは,有効なタスクの実行において良好に機能するが,安全タスクでは性能が劣ることがわかった。
論文参考訳（メタデータ） (2024-10-23T02:51:43Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Building a Cybersecurity Risk Metamodel for Improved Method and Tool Integration [0.38073142980732994]
我々は,初期リスク分析にモデル駆動アプローチを適用した経験を,その後のセキュリティテストに関連して報告する。私たちの仕事は、さまざまなツール間で情報のトレーサビリティをマップ、同期、保証するために使用される共通のメタモデルに依存しています。
論文参考訳（メタデータ） (2024-09-12T10:18:26Z)
Athena: Safe Autonomous Agents with Verbal Contrastive Learning [3.102303947219617]
大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
論文参考訳（メタデータ） (2024-08-20T17:21:10Z)
Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems [1.079505444748609]
本稿では,新しいWebエージェントであるAgent-Eの構築について紹介する。 Agent-Eは、最先端のWebエージェントよりも多くのアーキテクチャ改善を導入している。我々は,Agent-Eが他のSOTAテキストおよびマルチモーダルWebエージェントを,ほとんどのカテゴリで10～30%上回っていることを示す。
論文参考訳（メタデータ） (2024-07-17T21:44:28Z)
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文参考訳（メタデータ） (2024-06-26T05:36:23Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文参考訳（メタデータ） (2024-06-01T00:32:26Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文参考訳（メタデータ） (2024-02-02T17:26:23Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。