論文の概要: LPS-Bench: Benchmarking Safety Awareness of Computer-Use Agents in Long-Horizon Planning under Benign and Adversarial Scenarios
- arxiv url: http://arxiv.org/abs/2602.03255v1
- Date: Tue, 03 Feb 2026 08:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.33215
- Title: LPS-Bench: Benchmarking Safety Awareness of Computer-Use Agents in Long-Horizon Planning under Benign and Adversarial Scenarios
- Title(参考訳): LPS-Bench: 長期計画におけるコンピュータ利用エージェントの安全意識のベンチマーク
- Authors: Tianyu Chen, Chujia Hu, Ge Gao, Dongrui Liu, Xia Hu, Wenjie Wang,
- Abstract要約: LPS-Benchは,長期作業下でのMPPベースのCUAの計画時安全意識を評価するベンチマークである。
実験は、安全な行動を維持する既存のCUAの能力に重大な欠陥があることを明らかにする。
MCPに基づくCUAシステムにおける長期計画の安全性向上のための緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 51.52395368061729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-use agents (CUAs) that interact with real computer systems can perform automated tasks but face critical safety risks. Ambiguous instructions may trigger harmful actions, and adversarial users can manipulate tool execution to achieve malicious goals. Existing benchmarks mostly focus on short-horizon or GUI-based tasks, evaluating on execution-time errors but overlooking the ability to anticipate planning-time risks. To fill this gap, we present LPS-Bench, a benchmark that evaluates the planning-time safety awareness of MCP-based CUAs under long-horizon tasks, covering both benign and adversarial interactions across 65 scenarios of 7 task domains and 9 risk types. We introduce a multi-agent automated pipeline for scalable data generation and adopt an LLM-as-a-judge evaluation protocol to assess safety awareness through the planning trajectory. Experiments reveal substantial deficiencies in existing CUAs' ability to maintain safe behavior. We further analyze the risks and propose mitigation strategies to improve long-horizon planning safety in MCP-based CUA systems. We open-source our code at https://github.com/tychenn/LPS-Bench.
- Abstract(参考訳): 実際のコンピュータシステムと対話するコンピュータ利用エージェント(CUA)は、自動化されたタスクを実行できるが、重大な安全リスクに直面している。
曖昧な指示は有害な行動を誘発し、敵対者は悪意のある目標を達成するためにツールの実行を操作できる。
既存のベンチマークは、主にショートホライズンやGUIベースのタスクに注目し、実行時のエラーを評価するが、計画時のリスクを予測できる能力を見落としている。
このギャップを埋めるために,長期タスク下でのMPPベースのCUAの計画時安全意識を評価するベンチマーク LPS-Bench を提案する。
我々は、スケーラブルなデータ生成のためのマルチエージェント自動パイプラインを導入し、計画軌道による安全性の認識を評価するためのLCM-as-a-judge評価プロトコルを適用した。
実験は、安全な行動を維持する既存のCUAの能力に重大な欠陥があることを明らかにする。
MCPベースのCUAシステムにおいて、リスクをさらに分析し、長期計画の安全性を改善するための緩和戦略を提案する。
ソースコードはhttps://github.com/tychenn/LPS-Bench.comで公開しています。
関連論文リスト
- CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning [3.058137447286947]
既存の方法は、選好調整トレーニングや、単一エージェントの安全プロンプトを使用する場合のオーバーリジェクションによって、高い計算コストに悩まされることが多い。
トレーニング不要なマルチエージェント議論リスクアセスメントフレームワークMADRAを提案する。
私たちの仕事は、信頼できるエンボディエージェントを構築するためのスケーラブルでモデルに依存しないソリューションを提供します。
論文 参考訳(メタデータ) (2025-11-26T14:51:37Z) - AgentSentinel: An End-to-End and Real-Time Security Defense Framework for Computer-Use Agents [7.99316950952212]
LLM(Large Language Models)は、コンピュータ利用エージェントにますます統合されている。
LLMは意図しないツールコマンドや誤った入力を発行し、潜在的に有害な操作を引き起こす可能性がある。
我々は,セキュリティの脅威を軽減するために,エンド・ツー・エンドのリアルタイム防衛フレームワークであるAgentSentinelを提案する。
論文 参考訳(メタデータ) (2025-09-09T13:59:00Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception [4.424170214926035]
本稿では,大規模言語モデルと構造化安全モデリングを組み合わせたリスク対応タスク計画フレームワークを提案する。
提案手法は,空間的および文脈的危険因子を抽出し,動的セマンティック安全グラフを構築する。
既定の安全性制約に依存する既存の手法とは異なり、我々のフレームワークはコンテキスト認識型リスク認識モジュールを導入している。
論文 参考訳(メタデータ) (2025-03-10T02:43:54Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Enhancing Attack Resilience in Real-Time Systems through Variable Control Task Sampling Rates [2.238622204691961]
各種制御タスクのサンプリングレートに対する有効なスケジュール間の実行時切替を可能にする新しいスケジュール脆弱性解析手法を提案する。
本稿では、リアルタイムシステムにおけるタイミング推定攻撃の成功率を低減するために、固定優先度スケジューラのためのマルチレートアタック・アウェア・ランダム化スケジューリング(MAARS)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-01T07:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。