論文の概要: Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance
- arxiv url: http://arxiv.org/abs/2603.19974v1
- Date: Fri, 20 Mar 2026 14:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.176941
- Title: Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance
- Title(参考訳): TrojanのWhisper: 注入式ブートストラップ誘導によるOpenClawのステルス操作
- Authors: Fazhong Liu, Zhuoyan Chen, Tu Lan, Haozhen Tan, Zhenyu Xu, Xiang Li, Guoxing Chen, Yan Meng, Haojin Zhu,
- Abstract要約: ガイダンスインジェクション(Guidance Injection)は、ブートストラップのガイダンスファイルに敵の運用ストーリーを埋め込むステルス攻撃ベクターである。
エクスプロイト,ワークスペース破壊,特権エスカレーション,持続的バックドア設置など,13の攻撃カテゴリにまたがる26の悪意あるスキルを構築した。
我々の攻撃は16.4%から64.2%の確率で成功し、悪意のある行動の大半はユーザーの確認なしに自律的に実行される。
- 参考スコア(独自算出の注目度): 23.059379933610163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous coding agents are increasingly integrated into software development workflows, offering capabilities that extend beyond code suggestion to active system interaction and environment management. OpenClaw, a representative platform in this emerging paradigm, introduces an extensible skill ecosystem that allows third-party developers to inject behavioral guidance through lifecycle hooks during agent initialization. While this design enhances automation and customization, it also opens a novel and unexplored attack surface. In this paper, we identify and systematically characterize guidance injection, a stealthy attack vector that embeds adversarial operational narratives into bootstrap guidance files. Unlike traditional prompt injection, which relies on explicit malicious instructions, guidance injection manipulates the agent's reasoning context by framing harmful actions as routine best practices. These narratives are automatically incorporated into the agent's interpretive framework and influence future task execution without raising suspicion.We construct 26 malicious skills spanning 13 attack categories including credential exfiltration, workspace destruction, privilege escalation, and persistent backdoor installation. We evaluate them using ORE-Bench, a realistic developer workspace benchmark we developed. Across 52 natural user prompts and six state-of-the-art LLM backends, our attacks achieve success rates from 16.0% to 64.2%, with the majority of malicious actions executed autonomously without user confirmation. Furthermore, 94% of our malicious skills evade detection by existing static and LLM-based scanners. Our findings reveal fundamental tensions in the design of autonomous agent ecosystems and underscore the urgent need for defenses based on capability isolation, runtime policy enforcement, and transparent guidance provenance.
- Abstract(参考訳): 自律的なコーディングエージェントはますますソフトウェア開発ワークフローに統合され、コード提案からアクティブなシステムインタラクションや環境管理まで拡張された機能を提供する。
この新興パラダイムの代表的プラットフォームであるOpenClawは、サードパーティ開発者がエージェントの初期化時にライフサイクルフックを通じて行動ガイダンスを注入できる拡張可能なスキルエコシステムを導入している。
この設計は自動化とカスタマイズを促進させるが、新規で未調査の攻撃面も開放する。
本稿では,ブートストラップ誘導ファイルに敵の操作記述を埋め込んだステルス攻撃ベクトルである誘導インジェクションを同定し,体系的に特徴付ける。
明示的な悪意のある指示に依存する従来のプロンプトインジェクションとは異なり、ガイダンスインジェクションは、通常のベストプラクティスとして有害なアクションをフレーミングすることによってエージェントの推論コンテキストを操作する。
これらの物語はエージェントの解釈枠組みに自動的に組み込まれ、疑わしい疑念を起こさずにタスク実行に影響を与える。我々は、クレデンシャル・エクスプロイト、ワークスペースの破壊、特権のエスカレーション、永続的なバックドア設置を含む13の攻撃カテゴリにまたがる26の悪意あるスキルを構築した。
私たちは、現実的な開発者ワークスペースベンチマークであるORE-Benchを使って、それらを評価しました。
52の自然なユーザプロンプトと6つの最先端のLDMバックエンドで、私たちの攻撃は16.0%から64.2%に成功し、悪意のあるアクションの大部分がユーザ確認なしで自律的に実行される。
さらに、我々の悪意あるスキルの94%は、既存の静的およびLCMベースのスキャナーによる検出を回避している。
本研究は,自律型エージェント・エコシステムの設計における基本的緊張感を明らかにし,能力分離,実行時方針強制,透明なガイダンス証明に基づく防衛の緊急的必要性を裏付けるものである。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Context manipulation attacks : Web agents are susceptible to corrupted memory [37.66661108936654]
Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。
プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。
この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
論文 参考訳(メタデータ) (2025-06-18T14:29:02Z) - Mind the Web: The Security of Web Use Agents [11.075673765065103]
本稿では,Webページに悪意のあるコンテンツを埋め込むことで,攻撃者がWeb利用エージェントを利用する方法を示す。
本稿では,悪質なコマンドをタスクガイダンスとしてフレーム化するタスクアラインインジェクション手法を提案する。
本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-06-08T13:59:55Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。