論文の概要: Measuring Harmfulness of Computer-Using Agents
- arxiv url: http://arxiv.org/abs/2508.00935v2
- Date: Wed, 24 Sep 2025 06:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 16:23:42.317561
- Title: Measuring Harmfulness of Computer-Using Agents
- Title(参考訳): コンピュータ利用エージェントの有害性測定
- Authors: Aaron Xuxiang Tian, Ruofan Zhang, Janet Tang, Ji Wang, Tianyu Shi, Jiaxin Wen,
- Abstract要約: コンピュータ利用エージェント(CUA)は、コンピュータを自律的に制御し、マルチステップアクションを実行する。
CUAHarmは104名の専門家による現実的な誤用リスクで構成されている。
GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, Mistral Large 2などのフロンティア膜の評価を行った。
- 参考スコア(独自算出の注目度): 14.509501604704127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-using agents (CUAs), which can autonomously control computers to perform multi-step actions, might pose significant safety risks if misused. However, existing benchmarks mainly evaluate LMs in chatbots or simple tool use. To more comprehensively evaluate CUAs' misuse risks, we introduce a new benchmark: CUAHarm. CUAHarm consists of 104 expert-written realistic misuse risks, such as disabling firewalls, leaking data, or installing backdoors. We provide a sandbox with rule-based verifiable rewards to measure CUAs' success rates in executing these tasks (e.g., whether the firewall is indeed disabled), beyond refusal rates. We evaluate frontier LMs including GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, and Mistral Large 2. Even without jailbreaking prompts, these frontier LMs comply with executing these malicious tasks at a high success rate (e.g., 90\% for Gemini 2.5 Pro). Furthermore, while newer models are safer in previous safety benchmarks, their misuse risks as CUAs become even higher, e.g., Gemini 2.5 Pro is riskier than Gemini 1.5 Pro. Additionally, while these LMs are robust to common malicious prompts (e.g., creating a bomb) when acting as chatbots, they could still act unsafely as CUAs. We further evaluate a leading agentic framework (UI-TARS-1.5) and find that while it improves performance, it also amplifies misuse risks. To mitigate the misuse risks of CUAs, we explore using LMs to monitor CUAs' actions. We find monitoring unsafe computer-using actions is significantly harder than monitoring conventional unsafe chatbot responses. While monitoring chain-of-thoughts leads to modest gains, the average monitoring accuracy is only 77\%. A hierarchical summarization strategy improves performance by up to 13\%, a promising direction though monitoring remains unreliable. The benchmark will be released publicly to facilitate further research on mitigating these risks.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、コンピュータを自律的に制御して複数ステップの動作を行うことができるが、誤用された場合、重大な安全性のリスクが生じる可能性がある。
しかし、既存のベンチマークは主にチャットボットやシンプルなツールの使用におけるLMを評価している。
CUAの誤用リスクをより包括的に評価するために、CUAHarmという新しいベンチマークを導入する。
CUAHarmは、ファイヤーウォールの無効化、データ漏洩、バックドアの設置など、104名の専門家による現実的な誤用リスクで構成されている。
これらのタスク(例えば、ファイアウォールが実際に無効であるかどうか)の実行におけるCUAの成功率を測定するために、ルールベースの検証可能な報酬を持つサンドボックスを提供する。
GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, Mistral Large 2などのフロンティア膜の評価を行った。
ジェイルブレイクのプロンプトがなくても、これらのフロンティアLMは、これらの悪意のあるタスクを高い成功率(例えば、Gemini 2.5 Proの90%)で実行する。
さらに、新しいモデルは以前の安全ベンチマークでは安全性が高いが、CUAsがさらに高くなるにつれて、その誤用リスクは、例えば、Gemini 2.5 ProはGemini 1.5 Proよりもリスクが高い。
さらに、これらのLMはチャットボットとして振る舞うとき、一般的な悪意のあるプロンプト(例えば爆弾を作る)に対して堅牢であるが、CUAとして安全でない動作をすることができる。
さらに、主要なエージェントフレームワーク(UI-TARS-1.5)を評価し、性能が向上する一方で、誤用リスクも増幅することを示した。
CUAの誤用リスクを軽減するために, LMを用いてCUAの動作を監視する。
安全でないコンピュータの動作を監視することは、従来の安全でないチャットボットの応答を監視するよりもはるかに難しい。
チェーンオブ思想の監視は、わずかに上昇する一方、平均的な監視精度は77\%である。
階層的な要約戦略はパフォーマンスを最大13倍向上させるが、監視は信頼性が低いままである。
このベンチマークは、これらのリスクを軽減するためのさらなる研究を促進するために、公開される予定だ。
関連論文リスト
- When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents [50.5814495434565]
この研究は、コンピュータ利用エージェント(CUA)における不整合検出を定義し、研究する最初の試みである。
実世界のCUAデプロイメントにおける3つの一般的なカテゴリを特定し、人間の注釈付きアクションレベルのアライメントラベルを用いたリアルな軌跡のベンチマークであるMisActBenchを構築した。
本稿では,実行前に不整合を検知し,構造化されたフィードバックによって繰り返し修正する,実用的で普遍的なガードレールであるDeActionを提案する。
論文 参考訳(メタデータ) (2026-02-09T18:41:15Z) - LPS-Bench: Benchmarking Safety Awareness of Computer-Use Agents in Long-Horizon Planning under Benign and Adversarial Scenarios [51.52395368061729]
LPS-Benchは,長期作業下でのMPPベースのCUAの計画時安全意識を評価するベンチマークである。
実験は、安全な行動を維持する既存のCUAの能力に重大な欠陥があることを明らかにする。
MCPに基づくCUAシステムにおける長期計画の安全性向上のための緩和戦略を提案する。
論文 参考訳(メタデータ) (2026-02-03T08:40:24Z) - MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction [16.58862217164395]
実世界のCUAセキュリティを改善するためにシミュレーションベースのトレーニングを利用するプラグアンドプレイディフェンスフレームワークであるMirrorGuardを紹介する。
MirrorGuard氏は、CUAの安全でない推論チェーンをインターセプトし、修正して、安全でないアクションを生成し、実行することを学ぶ。
我々の研究は、シミュレーションによる防御は、エージェントの基本的な実用性を維持しながら、堅牢で現実世界の保護を提供することができることを証明している。
論文 参考訳(メタデータ) (2026-01-19T08:32:09Z) - CTRL-ALT-DECEIT: Sabotage Evaluations for Automated AI R&D [4.230181169227057]
機械学習(ML)エンジニアリングを行う際に,AIエージェントがユーザの興味に反して行動する能力について検討する。
現実的なMLタスクのベンチマークであるMLE-Benchを拡張し、バックドアを埋め込んだり、意図的に一般化の失敗を引き起こすようなコードサボタージュタスクを実行します。
我々は、不審なエージェントの挙動を検出するためにLMモニターを使用し、これらのモニターによって検出されることなく、モデル能力をサボタージュやサンドバッグに測定する。
論文 参考訳(メタデータ) (2025-11-13T03:02:36Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [34.396536936282175]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Towards Evaluating Proactive Risk Awareness of Multimodal Language Models [39.44421152112219]
プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
論文 参考訳(メタデータ) (2025-05-23T04:28:47Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - SafeArena: Evaluating the Safety of Autonomous Web Agents [65.49740046281116]
LLMベースのエージェントは、Webベースのタスクの解決に精通している。
この能力により、悪意のある目的のために誤用されるリスクが高まる。
我々は、Webエージェントの意図的に誤用に焦点を当てた最初のベンチマークであるSafeArenaを提案する。
論文 参考訳(メタデータ) (2025-03-06T20:43:14Z) - A sketch of an AI control safety case [3.753791609999324]
LLMエージェントが障害を引き起こすためのキャパシティが向上するにつれて、AI開発者は、安全であることを正当化するために監視などのコントロール手段をますます頼りにしている。
開発者が"コントロールセーフティケース"を構築する方法についてスケッチします。
この安全ケーススケッチは、危険な能力を持つLLMエージェントが安全にデプロイ可能であることを示すために使用できる、より具体的な議論への一歩です。
論文 参考訳(メタデータ) (2025-01-28T21:52:15Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。
4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。
GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文 参考訳(メタデータ) (2024-08-15T17:23:10Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。