Fugu-MT 論文翻訳(概要): AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

論文の概要: AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

arxiv url: http://arxiv.org/abs/2604.02947v1
Date: Fri, 03 Apr 2026 10:29:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.446208
Title: AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents
Title（参考訳）: AgentHazard: コンピュータ利用エージェントの有害行動評価ベンチマーク
Authors: Yunhao Feng, Yifan Ding, Yingshui Tan, Xingjun Ma, Yige Li, Yutao Wu, Yifeng Gao, Kun Zhai, Yanming Guo,
Abstract要約: コンピュータ利用エージェントの有害行動を評価するベンチマークである textbfAgentHazard を提案する。我々は、Qwen3、Kim、GLM、DeepSeekファミリーのほとんどをオープンまたはオープンにデプロイ可能なモデルを使用して、Claude Code、OpenClaw、IFlowを評価した。
参考スコア（独自算出の注目度）: 31.649268608215817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computer-use agents extend language models from text generation to persistent action over tools, files, and execution environments. Unlike chat systems, they maintain state across interactions and translate intermediate outputs into concrete actions. This creates a distinct safety challenge in that harmful behavior may emerge through sequences of individually plausible steps, including intermediate actions that appear locally acceptable but collectively lead to unauthorized actions. We present \textbf{AgentHazard}, a benchmark for evaluating harmful behavior in computer-use agents. AgentHazard contains \textbf{2,653} instances spanning diverse risk categories and attack strategies. Each instance pairs a harmful objective with a sequence of operational steps that are locally legitimate but jointly induce unsafe behavior. The benchmark evaluates whether agents can recognize and interrupt harm arising from accumulated context, repeated tool use, intermediate actions, and dependencies across steps. We evaluate AgentHazard on Claude Code, OpenClaw, and IFlow using mostly open or openly deployable models from the Qwen3, Kimi, GLM, and DeepSeek families. Our experimental results indicate that current systems remain highly vulnerable. In particular, when powered by Qwen3-Coder, Claude Code exhibits an attack success rate of \textbf{73.63\%}, suggesting that model alignment alone does not reliably guarantee the safety of autonomous agents.
Abstract（参考訳）: コンピュータ利用エージェントは、言語モデルをテキスト生成からツール、ファイル、実行環境上の永続的なアクションまで拡張する。チャットシステムとは異なり、インタラクション間の状態を維持し、中間出力を具体的なアクションに変換する。このことは、有害な行動は、局所的に許容されるが、全体として無許可な行動につながる中間的な行動を含む、個々のもっともらしいステップのシーケンスを通して生じる可能性があるという、明確な安全性の課題を生み出している。本稿では,コンピュータ利用エージェントの有害行動を評価するベンチマークであるtextbf{AgentHazard}を提案する。 AgentHazardには、さまざまなリスクカテゴリとアタック戦略にまたがる‘textbf{2,653}インスタンスが含まれている。各インスタンスは、ローカルに合法だが共同で安全でない振る舞いを誘発する一連の運用ステップと有害な目標をペアリングする。このベンチマークは、エージェントが、蓄積されたコンテキスト、繰り返しツールの使用、中間アクション、ステップ間の依存関係から生じる害を認識および中断できるかどうかを評価する。我々は、Qwen3、Kim、GLM、DeepSeekファミリーのほとんどをオープンまたはオープンにデプロイ可能なモデルを用いて、Claude Code、OpenClaw、IFlow上のAgentHazardを評価した。実験結果から,現在のシステムは非常に脆弱であることが示唆された。特に、Qwen3-Coderで動く場合、Claude Codeは攻撃成功率を \textbf{73.63\%} で示しており、モデルアライメントだけでは自律エージェントの安全性を確実に保証していないことを示唆している。

関連論文リスト

The Causal Impact of Tool Affordance on Safety Alignment in LLM Agents [0.3823356975862005]
本研究は,大規模言語モデル(LLM)の安全アライメントがいかに変化するかを実証的に検証する。決定論的金融取引環境において、1500シナリオにわたる二元的安全制約を伴う実験を行う。どちらのモデルも、テキストのみの設定では完全なコンプライアンスを維持しているが、ツールアクセスが導入されると、違反が大幅に増加する。
論文参考訳（メタデータ） (2026-03-19T23:34:46Z)
Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文参考訳（メタデータ） (2026-03-02T22:01:08Z)
Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains [7.8562769948743965]
大規模言語モデル(LLM)上に構築されたエージェントシステムは、テキスト生成を超えて情報を自律的に取得し、ツールを呼び出す。このランタイム実行モデルは、アタックサーフェスをビルド時のアーティファクトから推論時の依存性に変更し、信頼できないデータと確率論的能力解決を通じて操作するエージェントを公開します。我々はこれらのリスクを統合ランタイムフレームワーク内で体系化し、脅威をデータサプライチェーン攻撃(過渡的コンテキスト注入と永続的メモリ中毒)に分類する。また,ウイルスエージェントループは,コードレベルの欠陥を生かさずに自己増殖するワームのベクターとして機能する。
論文参考訳（メタデータ） (2026-02-23T06:57:57Z)
CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文参考訳（メタデータ） (2026-02-23T06:41:41Z)
A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) [77.1549110891026]
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
論文参考訳（メタデータ） (2026-02-16T00:33:02Z)
SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文参考訳（メタデータ） (2026-02-15T16:09:48Z)
When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文参考訳（メタデータ） (2026-02-09T03:20:11Z)
The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文参考訳（メタデータ） (2026-01-21T15:22:21Z)
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。 OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文参考訳（メタデータ） (2025-06-17T17:59:31Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。