論文の概要: SafeArena: Evaluating the Safety of Autonomous Web Agents
- arxiv url: http://arxiv.org/abs/2503.04957v1
- Date: Thu, 06 Mar 2025 20:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:16.981462
- Title: SafeArena: Evaluating the Safety of Autonomous Web Agents
- Title(参考訳): SafeArena: 自律Webエージェントの安全性を評価する
- Authors: Ada Defne Tur, Nicholas Meade, Xing Han Lù, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Stańczak, Siva Reddy,
- Abstract要約: LLMベースのエージェントは、Webベースのタスクの解決に精通している。
この能力により、悪意のある目的のために誤用されるリスクが高まる。
我々は、Webエージェントの意図的に誤用に焦点を当てた最初のベンチマークであるSafeArenaを提案する。
- 参考スコア(独自算出の注目度): 65.49740046281116
- License:
- Abstract: LLM-based agents are becoming increasingly proficient at solving web-based tasks. With this capability comes a greater risk of misuse for malicious purposes, such as posting misinformation in an online forum or selling illicit substances on a website. To evaluate these risks, we propose SafeArena, the first benchmark to focus on the deliberate misuse of web agents. SafeArena comprises 250 safe and 250 harmful tasks across four websites. We classify the harmful tasks into five harm categories -- misinformation, illegal activity, harassment, cybercrime, and social bias, designed to assess realistic misuses of web agents. We evaluate leading LLM-based web agents, including GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B, and Llama-3.2 90B, on our benchmark. To systematically assess their susceptibility to harmful tasks, we introduce the Agent Risk Assessment framework that categorizes agent behavior across four risk levels. We find agents are surprisingly compliant with malicious requests, with GPT-4o and Qwen-2 completing 34.7% and 27.3% of harmful requests, respectively. Our findings highlight the urgent need for safety alignment procedures for web agents. Our benchmark is available here: https://safearena.github.io
- Abstract(参考訳): LLMベースのエージェントは、Webベースのタスクの解決に精通している。
この能力により、オンラインフォーラムに誤報を投稿したり、ウェブサイトで違法な物質を売るなど、悪意のある目的のために誤用されるリスクが高まる。
これらのリスクを評価するために,Webエージェントの意図的な誤用に着目した最初のベンチマークであるSafeArenaを提案する。
SafeArenaは4つのウェブサイトで250の安全タスクと250の有害タスクで構成されている。
我々は、有害なタスクを、誤情報、違法な活動、ハラスメント、サイバー犯罪、社会的偏見の5つの有害カテゴリーに分類し、Webエージェントの現実的な誤用を評価する。
GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B, Llama-3.2 90B などの LLM ベースの Web エージェントをベンチマークで評価した。
有害なタスクに対する感受性を体系的に評価するために,4つのリスクレベルにまたがるエージェント行動の分類を行うエージェントリスクアセスメントフレームワークを導入する。
GPT-4oとQwen-2はそれぞれ34.7%と27.3%の有害な要求を完了している。
本研究は,Webエージェントの安全アライメント手順の必要性を浮き彫りにするものである。
私たちのベンチマークはこちらで利用可能です。
関連論文リスト
- SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
LLMエージェントの安全性を考慮したタスク計画のための新しいベンチマークであるSafeAgentBenchを提案する。
SafeAgentBenchは、(1)10の潜在的なハザードと3つのタスクタイプをカバーする750のタスクを持つ新しいデータセット、(2)SafeAgentEnv、低レベルコントローラを備えた普遍的な実施環境、8つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートする、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - Securing the Web: Analysis of HTTP Security Headers in Popular Global Websites [2.7039386580759666]
調査対象のウェブサイトの半数以上(55.66%)は「F」という異常なセキュリティグレードを受けた。
これらの低いスコアは、コンテンツセキュリティポリシー(CSP)の弱い実装、HSTSガイドラインの無視、サブリソース統合(SRI)の不十分な適用など、複数の問題を露呈している。
論文 参考訳(メタデータ) (2024-10-19T01:03:59Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents [3.09793323158304]
本稿では,Webエージェントの安全性と信頼性を6つの重要な次元にわたって評価するベンチマークSTWebAgentBenchを提案する。
このベンチマークは、セーフで信頼できる(ST)エージェントの振る舞いを定義する詳細なフレームワークに基づいている。
私たちはこのベンチマークをオープンソース化し、新しい世代の安全で信頼性の高いAIエージェントを育成することを目的として、コミュニティにコントリビューションを呼びかけます。
論文 参考訳(メタデータ) (2024-10-09T09:13:38Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。