論文の概要: Don't Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw
- arxiv url: http://arxiv.org/abs/2603.10387v1
- Date: Wed, 11 Mar 2026 04:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.772221
- Title: Don't Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw
- Title(参考訳): OpenClawのセキュリティ分析と防御フレームワーク
- Authors: Zhengyang Shan, Jiayun Xin, Yue Zhang, Minghui Xu,
- Abstract要約: 大きな言語モデルを利用したコードエージェントは、ユーザに代わってシェルコマンドを実行し、深刻なセキュリティ脆弱性を導入することができる。
本稿では,OpenClawプラットフォームの2段階のセキュリティ解析について述べる。
我々は,新しいHuman-in-the-Loop(HITL)防衛層を提案し,実装する。
- 参考スコア(独自算出の注目度): 11.260903238043129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code agents powered by large language models can execute shell commands on behalf of users, introducing severe security vulnerabilities. This paper presents a two-phase security analysis of the OpenClaw platform. As an open-source AI agent framework that operates locally, OpenClaw can be integrated with various commercial large language models. Because its native architecture lacks built-in security constraints, it serves as an ideal subject for evaluating baseline agent vulnerabilities. First, we systematically evaluate OpenClaw's native resilience against malicious instructions. By testing 47 adversarial scenarios across six major attack categories derived from the MITRE ATLAS and ATT\&CK frameworks, we have demonstrated that OpenClaw exhibits significant inherent security issues. It primarily relies on the security capabilities of the backend LLM and is highly susceptible to sandbox escape attacks, with an average defense rate of only 17\%. To mitigate these critical security gaps, we propose and implement a novel Human-in-the-Loop (HITL) defense layer. We utilize a dual-mode testing framework to evaluate the system with and without our proposed intervention. Our findings show that the introduced HITL layer significantly hardens the system, successfully intercepting up to 8 severe attacks that completely bypassed OpenClaw's native defenses. By combining native capabilities with our HITL approach, the overall defense rate improves to a range of 19\% to 92\%. Our study not only exposes the intrinsic limitations of current code agents but also demonstrates the effectiveness of human-agent collaborative defense strategies.
- Abstract(参考訳): 大きな言語モデルを利用したコードエージェントは、ユーザに代わってシェルコマンドを実行し、深刻なセキュリティ脆弱性を導入することができる。
本稿では,OpenClawプラットフォームの2段階のセキュリティ解析について述べる。
ローカルに動作するオープンソースのAIエージェントフレームワークとして、OpenClawはさまざまな商用大規模言語モデルと統合することができる。
ネイティブアーキテクチャにはセキュリティ上の制約が組み込まれていないため、ベースラインエージェントの脆弱性を評価する上で理想的な対象として機能する。
まず、悪意のある命令に対するOpenClawのネイティブレジリエンスを体系的に評価する。
MITRE ATLASとATT\&CKフレームワークから派生した6つの主要な攻撃カテゴリで47の敵シナリオをテストすることで、OpenClawが重大なセキュリティ問題を示すことを示した。
主にバックエンドのLLMのセキュリティ機能に依存しており、サンドボックスのエスケープ攻撃の影響を受けやすい。
これらの重要なセキュリティギャップを軽減するため、我々は新しいHuman-in-the-Loop(HITL)防衛層を提案し、実装する。
我々は,提案した介入を伴わずにシステムを評価するために,デュアルモードテストフレームワークを利用する。
以上の結果から,HITL層はシステムを大幅に強化し,OpenClawのネイティブディフェンスを完全にバイパスする8つの攻撃をインターセプトすることに成功した。
ネイティブ機能とHITLアプローチを組み合わせることで、全体的な防御率は19\%から92\%の範囲に向上する。
本研究は,現行のコードエージェントの本質的な限界を明らかにするだけでなく,人間とエージェントの協調防衛戦略の有効性を実証する。
関連論文リスト
- ICL-EVADER: Zero-Query Black-Box Evasion Attacks on In-Context Learning and Their Defenses [8.57098009274006]
In-context Learning (ICL) は、大規模言語モデルを用いたテキスト分類において、強力なデータ効率のパラダイムとなっている。
In this present ICL-Evader, a novel black-box evasion attack framework which operating under a high practical zero-query threat model。
論文 参考訳(メタデータ) (2026-01-29T11:50:50Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations [0.9732319879728966]
大きな言語モデル(LLM)は、安全フィルタを回避し、有害または非倫理的な振る舞いを誘発するジェイルブレイクの悪用に影響を受けやすいままである。
この研究は、即時レベル、モデルレベル、トレーニングタイムの介入にまたがって、既存のジェイルブレイク防御の体系的な分類を提示している。
論文 参考訳(メタデータ) (2025-11-24T09:38:11Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models [8.423787598133972]
本稿では,大規模言語モデル(LLM)の関数呼び出しプロセスにおける重大な脆弱性を明らかにする。
本稿では,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。
本研究は,LLMの機能呼び出し機能において,緊急のセキュリティ対策の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-07-25T10:09:21Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。