論文の概要: AgentSentinel: An End-to-End and Real-Time Security Defense Framework for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2509.07764v1
- Date: Tue, 09 Sep 2025 13:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.345529
- Title: AgentSentinel: An End-to-End and Real-Time Security Defense Framework for Computer-Use Agents
- Title(参考訳): AgentSentinel: コンピュータ利用エージェントのためのエンドツーエンドでリアルタイムなセキュリティ防衛フレームワーク
- Authors: Haitao Hu, Peng Chen, Yanpeng Zhao, Yuqi Chen,
- Abstract要約: LLM(Large Language Models)は、コンピュータ利用エージェントにますます統合されている。
LLMは意図しないツールコマンドや誤った入力を発行し、潜在的に有害な操作を引き起こす可能性がある。
我々は,セキュリティの脅威を軽減するために,エンド・ツー・エンドのリアルタイム防衛フレームワークであるAgentSentinelを提案する。
- 参考スコア(独自算出の注目度): 7.99316950952212
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have been increasingly integrated into computer-use agents, which can autonomously operate tools on a user's computer to accomplish complex tasks. However, due to the inherently unstable and unpredictable nature of LLM outputs, they may issue unintended tool commands or incorrect inputs, leading to potentially harmful operations. Unlike traditional security risks stemming from insecure user prompts, tool execution results from LLM-driven decisions introduce new and unique security challenges. These vulnerabilities span across all components of a computer-use agent. To mitigate these risks, we propose AgentSentinel, an end-to-end, real-time defense framework designed to mitigate potential security threats on a user's computer. AgentSentinel intercepts all sensitive operations within agent-related services and halts execution until a comprehensive security audit is completed. Our security auditing mechanism introduces a novel inspection process that correlates the current task context with system traces generated during task execution. To thoroughly evaluate AgentSentinel, we present BadComputerUse, a benchmark consisting of 60 diverse attack scenarios across six attack categories. The benchmark demonstrates a 87% average attack success rate on four state-of-the-art LLMs. Our evaluation shows that AgentSentinel achieves an average defense success rate of 79.6%, significantly outperforming all baseline defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンピュータ利用エージェントに統合され、複雑なタスクを達成するために、ユーザのコンピュータ上のツールを自律的に操作できるようになっている。
しかし、LLM出力の本質的に不安定で予測不能な性質のため、意図しないツールコマンドや誤った入力を発行し、潜在的に有害な操作を引き起こす可能性がある。
安全でないユーザプロンプトから生じる従来のセキュリティリスクとは異なり、LLM駆動による決定によるツールの実行結果には、新たなユニークなセキュリティ課題が伴う。
これらの脆弱性は、コンピュータ使用エージェントのすべてのコンポーネントにまたがる。
これらのリスクを軽減するために,ユーザのコンピュータ上での潜在的なセキュリティ脅威を軽減するために,エンド・ツー・エンドのリアルタイム防衛フレームワークであるAgentSentinelを提案する。
AgentSentinelはエージェント関連サービス内のすべての機密操作をインターセプトし、包括的なセキュリティ監査が完了するまで実行を停止する。
我々のセキュリティ監査機構は,タスク実行中に生成されたシステムトレースと現在のタスクコンテキストを関連付ける新しい検査プロセスを導入している。
AgentSentinelを徹底的に評価するために、6つの攻撃カテゴリにまたがる60の多様な攻撃シナリオからなるベンチマークであるBadComputerUseを提案する。
ベンチマークでは、4つの最先端のLDMに対して平均87%の攻撃成功率を示している。
評価の結果,AgentSentinelは平均防御成功率79.6%を達成し,ベースライン防御を著しく上回った。
関連論文リスト
- Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.18472148461613155]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、前例のないセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLDMの安全性を総合的に評価する。
我々は、このような買収を組織するために、異なる攻撃面と信頼境界をどのように活用できるかに焦点を当てる。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。
特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。
我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文 参考訳(メタデータ) (2024-12-21T16:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。