論文の概要: Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw
- arxiv url: http://arxiv.org/abs/2604.04759v1
- Date: Mon, 06 Apr 2026 15:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.251724
- Title: Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw
- Title(参考訳): あなたのエージェント、彼らのアセット:OpenClawの現実の安全性分析
- Authors: Zijun Wang, Haoqin Tu, Letian Zhang, Hardy Chen, Juncheng Wu, Xiangyan Liu, Zhenlong Yuan, Tianyu Pang, Michael Qizhe Shieh, Fengze Liu, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie,
- Abstract要約: 本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
- 参考スコア(独自算出の注目度): 87.97230960702274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: OpenClaw, the most widely deployed personal AI agent in early 2026, operates with full local system access and integrates with sensitive services such as Gmail, Stripe, and the filesystem. While these broad privileges enable high levels of automation and powerful personalization, they also expose a substantial attack surface that existing sandboxed evaluations fail to capture. To address this gap, we present the first real-world safety evaluation of OpenClaw and introduce the CIK taxonomy, which unifies an agent's persistent state into three dimensions, i.e., Capability, Identity, and Knowledge, for safety analysis. Our evaluations cover 12 attack scenarios on a live OpenClaw instance across four backbone models (Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, and GPT-5.4). The results show that poisoning any single CIK dimension increases the average attack success rate from 24.6% to 64-74%, with even the most robust model exhibiting more than a threefold increase over its baseline vulnerability. We further assess three CIK-aligned defense strategies alongside a file-protection mechanism; however, the strongest defense still yields a 63.8% success rate under Capability-targeted attacks, while file protection blocks 97% of malicious injections but also prevents legitimate updates. Taken together, these findings show that the vulnerabilities are inherent to the agent architecture, necessitating more systematic safeguards to secure personal AI agents. Our project page is https://ucsc-vlaa.github.io/CIK-Bench.
- Abstract(参考訳): 2026年初頭に最も広くデプロイされたパーソナルAIエージェントであるOpenClawは、完全なローカルシステムアクセスで動作し、Gmail、Stripe、ファイルシステムなどの機密サービスと統合されている。
これらの広範な特権は、高いレベルの自動化と強力なパーソナライゼーションを可能にする一方で、既存のサンドボックス評価では捉えられないような、実質的な攻撃面を公開する。
このギャップに対処するため,我々は,OpenClawの実際の安全性評価を初めて実施し,CIK分類を導入し,エージェントの永続状態を3次元(能力,アイデンティティ,知識)にまとめて安全性分析を行う。
我々の評価では、4つのバックボーンモデル(Claude Sonnet 4.5, Opus 4.6, Gemini 3.1 Pro, GPT-5.4)で、ライブOpenClawインスタンス上の12の攻撃シナリオをカバーしています。
その結果、CIKの1つの寸法を中毒すると平均攻撃成功率は24.6%から64.74%に増加し、最も堅牢なモデルでさえベースラインの脆弱性よりも3倍以上に増加することが示された。
ファイル保護機構とともに3つのCIK対応の防衛戦略を評価するが、最強の防衛戦略は、キャパビリティをターゲットとした攻撃で63.8%の成功率を獲得し、ファイル保護は悪意のあるインジェクションの97%をブロックする一方で、正当な更新も防止している。
まとめると、これらの発見は、脆弱性はエージェントアーキテクチャに固有のものであり、個人のAIエージェントを保護するためにより体系的な保護を必要とすることを示している。
私たちのプロジェクトページはhttps://ucsc-vlaa.github.io/CIK-Bench.comです。
関連論文リスト
- How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition [48.32744727426218]
LLMベースのエージェントは、電子メール、ドキュメント、コードリポジトリなどの外部データソースを処理する高利得設定にますますデプロイされている。
これにより間接的なプロンプトインジェクション攻撃が発生し、外部コンテンツに埋め込まれた敵の命令は、ユーザの意識なしにエージェントの動作を操作できる。
この2つの目的を3つのエージェント設定で評価した。
論文 参考訳(メタデータ) (2026-03-16T14:49:36Z) - Don't Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw [11.260903238043129]
大きな言語モデルを利用したコードエージェントは、ユーザに代わってシェルコマンドを実行し、深刻なセキュリティ脆弱性を導入することができる。
本稿では,OpenClawプラットフォームの2段階のセキュリティ解析について述べる。
我々は,新しいHuman-in-the-Loop(HITL)防衛層を提案し,実装する。
論文 参考訳(メタデータ) (2026-03-11T04:09:05Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。
我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。
我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文 参考訳(メタデータ) (2025-10-24T23:53:16Z) - Cybersecurity AI: Evaluating Agentic Cybersecurity in Attack/Defense CTFs [3.6968315805917897]
我々は、サイバーセキュリティにおける攻撃や防御にAIシステムがより効果的であるかどうかを評価する。
統計分析によると、防御剤は54.3%の制約のないパッチング成功を達成している。
発見は、ディフェンダーがオープンソースのCybersecurity AIフレームワークを採用する緊急性を強調している。
論文 参考訳(メタデータ) (2025-10-20T13:21:09Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。