Fugu-MT 論文翻訳(概要): Measuring Harmfulness of Computer-Using Agents

論文の概要: Measuring Harmfulness of Computer-Using Agents

arxiv url: http://arxiv.org/abs/2508.00935v1
Date: Thu, 31 Jul 2025 07:02:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:21.634332
Title: Measuring Harmfulness of Computer-Using Agents
Title（参考訳）: コンピュータ利用エージェントの有害性測定
Authors: Aaron Xuxiang Tian, Ruofan Zhang, Janet Tang, Jiaxin Wen,
Abstract要約: コンピュータ利用エージェント(CUA)は、コンピュータを自律的に制御し、マルチステップアクションを実行する。 CUAHarmは104名の専門家による現実的な誤用リスクで構成されている。我々はClaude Sonnet, GPT-4o, Gemini Pro 1.5, Llama-3.3-70B, Mistral Large 2などのオープンソースおよびプロプライエタリなLMを評価した。
参考スコア（独自算出の注目度）: 7.662513862243521
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computer-using agents (CUAs), which autonomously control computers to perform multi-step actions, might pose significant safety risks if misused. Existing benchmarks mostly evaluate language models' (LMs) safety risks in chatbots or simple tool-usage scenarios, without granting full computer access. To better evaluate CUAs' misuse risks, we introduce a new benchmark: CUAHarm. CUAHarm consists of 104 expert-written realistic misuse risks, such as disabling firewalls, leaking confidential information, launching denial-of-service attacks, or installing backdoors. We provide a sandbox environment and rule-based verifiable rewards to measure CUAs' success rates in executing these tasks (e.g., whether the firewall is indeed disabled), not just refusal. We evaluate multiple frontier open-source and proprietary LMs, such as Claude Sonnet, GPT-4o, Gemini Pro 1.5, Llama-3.3-70B, and Mistral Large 2. Surprisingly, even without carefully designed jailbreaking prompts, these frontier LMs comply with executing these malicious tasks at a high success rate (e.g., 59% for Claude 3.7 Sonnet). Newer models show higher misuse rates: Claude 3.7 Sonnet succeeds on 15% more tasks than Claude 3.5. While these models are robust to common malicious prompts (e.g., creating a bomb) in chatbot settings, they behave unsafely as CUAs. We further evaluate a leading agentic framework (UI-TARS-1.5) and find that while it improves performance, it also amplifies misuse risks. Benign variants reveal refusals stem from alignment, not capability limits. To mitigate risks, we explore using LMs to monitor CUAs' actions and chain-of-thoughts (CoTs). Monitoring CUAs is significantly harder than chatbot outputs. Monitoring CoTs yields modest gains, with average detection accuracy at only 72%. Even with hierarchical summarization, improvement is limited to 4%. CUAHarm will be released at https://github.com/db-ol/CUAHarm.
Abstract（参考訳）: コンピュータ利用エージェント(CUA)は、コンピュータを自律的に制御してマルチステップ動作を行う。既存のベンチマークでは、コンピュータアクセスを完全に許可することなく、チャットボットや単純なツール使用シナリオにおける言語モデル(LM)の安全性リスクを評価している。 CUAの誤用リスクをよりよく評価するために、CUAHarmという新しいベンチマークを導入する。 CUAHarmは、ファイヤーウォールの無効化、機密情報の漏洩、DoS攻撃の開始、バックドアの設置など、104名の専門家による現実的な誤用リスクで構成されている。これらのタスクの実行におけるCUAの成功率(例えば、ファイアウォールが実際に無効であるかどうか)を測定するために、サンドボックス環境とルールベースの検証可能な報酬を提供する。我々は、Claude Sonnet、GPT-4o、Gemini Pro 1.5、Llama-3.3-70B、Mistral Large 2など、複数のフロンティアオープンソースおよびプロプライエタリなLMを評価した。驚いたことに、慎重に設計されたジェイルブレイクプロンプトがなくても、これらのフロンティアLMはこれらの悪質なタスクを高い成功率で実行する(例えば、Claude 3.7 Sonnetの59%)。クロード 3.7 ソーネットはクロード3.5よりも15%多くのタスクで成功している。これらのモデルは、チャットボット設定で一般的な悪意のあるプロンプト(例えば、爆弾を作る)に対して堅牢であるが、CUAのように安全でない振る舞いをする。さらに、主要なエージェントフレームワーク(UI-TARS-1.5)を評価し、性能が向上する一方で、誤用リスクも増幅することを示した。良質な変種は、機能制限ではなく、アライメントに由来する拒絶を明らかにする。リスクを軽減するため、我々はLMを用いてCUAの行動とCoTの連鎖をモニタリングする。 CUAのモニタリングはチャットボットの出力よりもはるかに難しい。 CoTsのモニタリングは、平均的な検出精度がわずか72%で、わずかに上昇する。階層的な要約であっても、改善は4%に制限される。 CUAHarmはhttps://github.com/db-ol/CUAHarm.comでリリースされる。

関連論文リスト

OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [34.396536936282175]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。 OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文参考訳（メタデータ） (2025-06-17T17:59:31Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。 Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文参考訳（メタデータ） (2025-05-21T07:44:52Z)
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文参考訳（メタデータ） (2025-03-14T23:50:34Z)
SafeArena: Evaluating the Safety of Autonomous Web Agents [65.49740046281116]
LLMベースのエージェントは、Webベースのタスクの解決に精通している。この能力により、悪意のある目的のために誤用されるリスクが高まる。我々は、Webエージェントの意図的に誤用に焦点を当てた最初のベンチマークであるSafeArenaを提案する。
論文参考訳（メタデータ） (2025-03-06T20:43:14Z)
ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文参考訳（メタデータ） (2024-10-05T02:58:20Z)
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。 4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。 GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文参考訳（メタデータ） (2024-08-15T17:23:10Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。