論文の概要: ClawTrap: A MITM-Based Red-Teaming Framework for Real-World OpenClaw Security Evaluation
- arxiv url: http://arxiv.org/abs/2603.18762v1
- Date: Thu, 19 Mar 2026 11:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.107312
- Title: ClawTrap: A MITM-Based Red-Teaming Framework for Real-World OpenClaw Security Evaluation
- Title(参考訳): ClawTrap: 現実のOpenClawセキュリティ評価のためのMITMベースのレッドチームフレームワーク
- Authors: Haochen Zhao, Shaoyang Cui,
- Abstract要約: 既存のベンチマークは主に静的設定サンドボックスとコンテンツレベルのプロンプト攻撃に焦点を当てている。
我々は、実世界のOpenClawセキュリティ評価のためのtextbfMITM ベースのred-teaming フレームワーク textbfClawTrap を提案する。
- 参考スコア(独自算出の注目度): 1.3259530543819007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous web agents such as \textbf{OpenClaw} are rapidly moving into high-impact real-world workflows, but their security robustness under live network threats remains insufficiently evaluated. Existing benchmarks mainly focus on static sandbox settings and content-level prompt attacks, which leaves a practical gap for network-layer security testing. In this paper, we present \textbf{ClawTrap}, a \textbf{MITM-based red-teaming framework for real-world OpenClaw security evaluation}. ClawTrap supports diverse and customizable attack forms, including \textit{Static HTML Replacement}, \textit{Iframe Popup Injection}, and \textit{Dynamic Content Modification}, and provides a reproducible pipeline for rule-driven interception, transformation, and auditing. This design lays the foundation for future research to construct richer, customizable MITM attacks and to perform systematic security testing across agent frameworks and model backbones. Our empirical study shows clear model stratification: weaker models are more likely to trust tampered observations and produce unsafe outputs, while stronger models demonstrate better anomaly attribution and safer fallback strategies. These findings indicate that reliable OpenClaw security evaluation should explicitly incorporate dynamic real-world MITM conditions rather than relying only on static sandbox protocols.
- Abstract(参考訳): textbf{OpenClaw}のような自律的なWebエージェントは、急速にハイインパクトな現実世界のワークフローに移行しているが、ライブネットワークの脅威下でのセキュリティの堅牢性は、まだ十分に評価されていない。
既存のベンチマークは主に静的サンドボックス設定とコンテンツレベルのプロンプト攻撃に焦点を当てており、ネットワーク層セキュリティテストの実践的なギャップを残している。
本稿では,実世界のOpenClawセキュリティ評価のための,textbf{MITMベースのレッドチームフレームワークである‘textbf{ClawTrap} を紹介する。
ClawTrapは、 \textit{Static HTML Replacement}、 \textit{Iframe Popup Injection}、 \textit{Dynamic Content Modification}などの多様なカスタマイズ可能な攻撃形式をサポートし、ルール駆動のインターセプション、変換、監査のための再現可能なパイプラインを提供する。
この設計は、よりリッチでカスタマイズ可能なMITM攻撃を構築し、エージェントフレームワークとモデルバックボーン間で体系的なセキュリティテストを実行するための将来の研究の基礎となる。
より弱いモデルは、改ざんされた観察を信頼し、安全でない出力を生成する傾向が強く、強いモデルは、より良い異常帰属とより安全なフォールバック戦略を示す。
これらの結果は、信頼性の高いOpenClawセキュリティ評価は、静的サンドボックスプロトコルのみに依存するのではなく、動的実世界のMITM条件を明示的に取り入れるべきであることを示している。
関連論文リスト
- Predicting Known Vulnerabilities from Attack Descriptions Using Sentence Transformers [0.0]
この論文は、サイバー攻撃の自然言語による記述から既知の脆弱性を予測する問題に対処する。
攻撃や脆弱性記述を意味ベクトル表現にエンコードするトランスフォーマーベースの文埋め込み手法を開発した。
論文 参考訳(メタデータ) (2026-02-25T21:44:57Z) - CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit [44.24310459184061]
オープン環境で動作するLLMエージェントは、間接的なプロンプトインジェクションによるエスカレーションリスクに直面している。
制約的分離から検証前コミットプロトコルへパラダイムをシフトするフレームワークである textbfVIGIL を提案する。
論文 参考訳(メタデータ) (2026-01-09T12:19:49Z) - OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文 参考訳(メタデータ) (2026-01-04T16:41:33Z) - Beyond Algorithmic Proofs: Towards Implementation-Level Provable Security [1.338174941551702]
我々は,実世界の攻撃面に対して構造的に検証可能なレジリエンスの観点からセキュリティを定義する新しいパラダイムである,実装レベル確率セキュリティを提案する。
本稿では,ファイル破壊システムであるSEER(Secure and Efficient Encryption-based Erasure via Ransomware)について述べる。
論文 参考訳(メタデータ) (2025-08-02T01:58:06Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。