論文の概要: Measuring Harmfulness of Computer-Using Agents
- arxiv url: http://arxiv.org/abs/2508.00935v2
- Date: Wed, 24 Sep 2025 06:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 16:23:42.317561
- Title: Measuring Harmfulness of Computer-Using Agents
- Title(参考訳): コンピュータ利用エージェントの有害性測定
- Authors: Aaron Xuxiang Tian, Ruofan Zhang, Janet Tang, Ji Wang, Tianyu Shi, Jiaxin Wen,
- Abstract要約: コンピュータ利用エージェント(CUA)は、コンピュータを自律的に制御し、マルチステップアクションを実行する。
CUAHarmは104名の専門家による現実的な誤用リスクで構成されている。
GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, Mistral Large 2などのフロンティア膜の評価を行った。
- 参考スコア(独自算出の注目度): 14.509501604704127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-using agents (CUAs), which can autonomously control computers to perform multi-step actions, might pose significant safety risks if misused. However, existing benchmarks mainly evaluate LMs in chatbots or simple tool use. To more comprehensively evaluate CUAs' misuse risks, we introduce a new benchmark: CUAHarm. CUAHarm consists of 104 expert-written realistic misuse risks, such as disabling firewalls, leaking data, or installing backdoors. We provide a sandbox with rule-based verifiable rewards to measure CUAs' success rates in executing these tasks (e.g., whether the firewall is indeed disabled), beyond refusal rates. We evaluate frontier LMs including GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, and Mistral Large 2. Even without jailbreaking prompts, these frontier LMs comply with executing these malicious tasks at a high success rate (e.g., 90\% for Gemini 2.5 Pro). Furthermore, while newer models are safer in previous safety benchmarks, their misuse risks as CUAs become even higher, e.g., Gemini 2.5 Pro is riskier than Gemini 1.5 Pro. Additionally, while these LMs are robust to common malicious prompts (e.g., creating a bomb) when acting as chatbots, they could still act unsafely as CUAs. We further evaluate a leading agentic framework (UI-TARS-1.5) and find that while it improves performance, it also amplifies misuse risks. To mitigate the misuse risks of CUAs, we explore using LMs to monitor CUAs' actions. We find monitoring unsafe computer-using actions is significantly harder than monitoring conventional unsafe chatbot responses. While monitoring chain-of-thoughts leads to modest gains, the average monitoring accuracy is only 77\%. A hierarchical summarization strategy improves performance by up to 13\%, a promising direction though monitoring remains unreliable. The benchmark will be released publicly to facilitate further research on mitigating these risks.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、コンピュータを自律的に制御して複数ステップの動作を行うことができるが、誤用された場合、重大な安全性のリスクが生じる可能性がある。
しかし、既存のベンチマークは主にチャットボットやシンプルなツールの使用におけるLMを評価している。
CUAの誤用リスクをより包括的に評価するために、CUAHarmという新しいベンチマークを導入する。
CUAHarmは、ファイヤーウォールの無効化、データ漏洩、バックドアの設置など、104名の専門家による現実的な誤用リスクで構成されている。
これらのタスク(例えば、ファイアウォールが実際に無効であるかどうか)の実行におけるCUAの成功率を測定するために、ルールベースの検証可能な報酬を持つサンドボックスを提供する。
GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, Mistral Large 2などのフロンティア膜の評価を行った。
ジェイルブレイクのプロンプトがなくても、これらのフロンティアLMは、これらの悪意のあるタスクを高い成功率(例えば、Gemini 2.5 Proの90%)で実行する。
さらに、新しいモデルは以前の安全ベンチマークでは安全性が高いが、CUAsがさらに高くなるにつれて、その誤用リスクは、例えば、Gemini 2.5 ProはGemini 1.5 Proよりもリスクが高い。
さらに、これらのLMはチャットボットとして振る舞うとき、一般的な悪意のあるプロンプト(例えば爆弾を作る)に対して堅牢であるが、CUAとして安全でない動作をすることができる。
さらに、主要なエージェントフレームワーク(UI-TARS-1.5)を評価し、性能が向上する一方で、誤用リスクも増幅することを示した。
CUAの誤用リスクを軽減するために, LMを用いてCUAの動作を監視する。
安全でないコンピュータの動作を監視することは、従来の安全でないチャットボットの応答を監視するよりもはるかに難しい。
チェーンオブ思想の監視は、わずかに上昇する一方、平均的な監視精度は77\%である。
階層的な要約戦略はパフォーマンスを最大13倍向上させるが、監視は信頼性が低いままである。
このベンチマークは、これらのリスクを軽減するためのさらなる研究を促進するために、公開される予定だ。
関連論文リスト
- OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [34.396536936282175]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - SafeArena: Evaluating the Safety of Autonomous Web Agents [65.49740046281116]
LLMベースのエージェントは、Webベースのタスクの解決に精通している。
この能力により、悪意のある目的のために誤用されるリスクが高まる。
我々は、Webエージェントの意図的に誤用に焦点を当てた最初のベンチマークであるSafeArenaを提案する。
論文 参考訳(メタデータ) (2025-03-06T20:43:14Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。
4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。
GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文 参考訳(メタデータ) (2024-08-15T17:23:10Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。