論文の概要: Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats
- arxiv url: http://arxiv.org/abs/2603.11619v1
- Date: Thu, 12 Mar 2026 07:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.945807
- Title: Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats
- Title(参考訳): OpenClawのタグ付け: 自律的LLMエージェントの脅威のセキュリティ分析と軽減
- Authors: Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi Li,
- Abstract要約: 我々はOpenClawの総合的なセキュリティ脅威分析を行う。
本研究は, 間接的プロンプト注入, スキルサプライチェーン汚染, メモリ中毒, インテントドリフトなど, エージェントのライフサイクル全体にわたる脅威について検討する。
本研究は,時間的・多段階のシステム的リスクに対処する際の,現在のポイントベース防御機構の重大な欠陥を明らかにするものである。
- 参考スコア(独自算出の注目度): 29.43070870263607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Large Language Model (LLM) agents, exemplified by OpenClaw, demonstrate remarkable capabilities in executing complex, long-horizon tasks. However, their tightly coupled instant-messaging interaction paradigm and high-privilege execution capabilities substantially expand the system attack surface. In this paper, we present a comprehensive security threat analysis of OpenClaw. To structure our analysis, we introduce a five-layer lifecycle-oriented security framework that captures key stages of agent operation, i.e., initialization, input, inference, decision, and execution, and systematically examine compound threats across the agent's operational lifecycle, including indirect prompt injection, skill supply chain contamination, memory poisoning, and intent drift. Through detailed case studies on OpenClaw, we demonstrate the prevalence and severity of these threats and analyze the limitations of existing defenses. Our findings reveal critical weaknesses in current point-based defense mechanisms when addressing cross-temporal and multi-stage systemic risks, highlighting the need for holistic security architectures for autonomous LLM agents. Within this framework, we further examine representative defense strategies at each lifecycle stage, including plugin vetting frameworks, context-aware instruction filtering, memory integrity validation protocols, intent verification mechanisms, and capability enforcement architectures.
- Abstract(参考訳): OpenClawが例示した自律型大規模言語モデル(LLM)エージェントは、複雑な長期タスクの実行において、優れた機能を示している。
しかし、その密結合したインスタントメッセージインタラクションパラダイムと高特権実行能力は、システム攻撃面を大幅に拡張する。
本稿では,OpenClawの包括的セキュリティ脅威分析について述べる。
我々は,エージェントの初期化,入力,推論,決定,実行といった,エージェント操作の重要な段階を捉える5層ライフサイクル指向のセキュリティフレームワークを導入し,間接的プロンプトインジェクション,スキルサプライチェーン汚染,メモリ中毒,インテントドリフトなど,エージェントのライフサイクル全体にわたる複合的脅威を系統的に検討する。
OpenClawの詳細なケーススタディを通じて、これらの脅威の頻度と深刻さを示し、既存の防御の限界を分析する。
本研究は, 自律型LLMエージェントの総合的セキュリティアーキテクチャの必要性を浮き彫りにして, 時間的・多段階のシステム的リスクに対処する際の現状のポイントベース防御機構の重大な弱点を明らかにするものである。
本フレームワークでは,プラグインベッティングフレームワーク,コンテキスト対応命令フィルタリング,メモリ整合性検証プロトコル,インテント検証機構,能力施行アーキテクチャなど,ライフサイクルの各段階の代表的防衛戦略をさらに検討する。
関連論文リスト
- Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.787178868669265]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。
この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文 参考訳(メタデータ) (2026-02-16T04:30:06Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - Securing AI Agents in Cyber-Physical Systems: A Survey of Environmental Interactions, Deepfake Threats, and Defenses [2.6726842616701703]
この調査は、サイバー物理システムにおけるAIエージェントをターゲットにしたセキュリティ脅威の包括的なレビューを提供する。
我々は、環境相互作用、ディープフェイクによる攻撃、MCPによる脆弱性に焦点を当てる。
タイミング、騒音、偽陽性がいかに制約可能な防御を犠牲にするかを定量的に説明する。
論文 参考訳(メタデータ) (2026-01-28T02:33:24Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Systematization of Knowledge: Security and Safety in the Model Context Protocol Ecosystem [0.0]
Model Context Protocol(MCP)は、大規模言語モデルを外部データやツールに接続するためのデファクトスタンダードとして登場した。
本稿では,MCP生態系のリスクを分類し,敵のセキュリティ脅威と安全リスクを区別する。
マルチエージェント環境において、"コンテキスト"を兵器化して、不正な操作をトリガーする方法を実証する。
論文 参考訳(メタデータ) (2025-12-09T06:39:21Z) - Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents [1.014002853673217]
LLMエージェントはIPI(Indirect Prompt Injection)攻撃に対して脆弱である。
IPIは外部情報ソースを汚染することでハイジャックエージェントの動作を攻撃している。
本稿では,全ライフサイクルの認知管理を実現するための総合的な枠組みである認知制御アーキテクチャ(CCA)を提案する。
論文 参考訳(メタデータ) (2025-12-07T08:11:19Z) - How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。
このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。
目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文 参考訳(メタデータ) (2025-11-11T17:27:27Z) - NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-04T08:12:06Z) - Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence [3.2284427438223013]
セキュリティチームは、警告の疲労、高い偽陽性率、および大量の非構造化サイバー脅威情報(CTI)文書に圧倒されている。
本稿では,Large Language Models (LLMs) を利用してIRの自動化と拡張を行う新しいRAGベースのフレームワークを提案する。
提案手法では, CTIベクタデータベース内のNLPに基づく類似性検索と, 外部CTIプラットフォームへの標準クエリを組み合わせたハイブリッド検索機構を提案する。
論文 参考訳(メタデータ) (2025-08-14T14:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。