Fugu-MT 論文翻訳(概要): From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

論文の概要: From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

arxiv url: http://arxiv.org/abs/2605.31042v1
Date: Fri, 29 May 2026 09:19:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-01 20:56:50.499137
Title: From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors
Title（参考訳）: プロンプトインジェクションからパーシスタントコントロール:トロイの木馬のバックドアに対する防腐剤ハーネス
Authors: Jiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen,
Abstract要約: ローカルエージェントハーネスにおけるマルチステップトロイの木馬攻撃を識別するベンチマークであるClawTrojanを紹介する。そこで我々は,DASGuardを提案する。DASGuardは,コントロールライクなテキストをセンシティブなローカルファイルでスキャンし,その起源を辿り,信頼されたソースから派生しないコントロールコンテンツを除去する。この結果から, DASGuardは, 実行時の攻撃ブロックと作業空間への衛生的コミットを組み合わせることで, 強力な動的防御を実現することがわかった。
参考スコア（独自算出の注目度）: 89.92617739143846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM agents are evolving from conversational chatbots to operational tools in real-world workspaces. In local agentic harnesses, an LLM can read and write files, call tools, and reuse workspace state across sessions. While such capabilities enhance utility, they also expose a new attack surface for attackers. Attackers can embed a prompt injection within a file or tool output. Agents may read this hidden instruction, store it, and execute it later. In this multi-step trojan attack paradigm, no individual step appears malicious on its own, but these steps can collectively turn untrusted text into persistent control content. However, existing defenses often inspect each step in isolation. As a result, they can block a clear harmful action, but fail to detect the earlier write operation that plants the backdoor. To reveal this threat, we introduce ClawTrojan, a benchmark designed to identify multi-step trojan attacks in local agentic harnesses. In an OpenClaw-style simulated workspace with GPT-5.4, ClawTrojan reaches a 95.5% attack success rate (ASR), while existing single-turn prompt-injection attacks produce near-zero ASR on the same model. To address this threat, we propose DASGuard, which scans control-like text in sensitive local files, traces its origin, and removes control content that does not originate from a trusted source. Our results show that DASGuard achieves strong dynamic defense by combining runtime attack blocking with sanitized commits to the workspace.
Abstract（参考訳）: LLMエージェントは、会話チャットボットから、現実世界のワークスペースにおける運用ツールへと進化している。ローカルエージェントハーネスでは、LCMはファイルの読み込みと書き込み、ツールの呼び出し、セッション間のワークスペース状態の再利用が可能である。このような機能は実用性を高める一方で、攻撃者に対する新たな攻撃面を公開する。攻撃者はファイルやツール出力にプロンプトインジェクションを埋め込むことができる。エージェントはこの隠れた命令を読み取って保存し、後で実行する。このマルチステップのトロイの木馬攻撃パラダイムでは、個々のステップが悪意あるようには見えないが、これらのステップは信頼できないテキストをまとめて永続的な制御コンテンツに変換することができる。しかし、既存の防衛は、しばしば独立したステップで各ステップを検査する。その結果、明確な有害な動作をブロックできるが、バックドアを植える初期の書き込み操作を検出できない。この脅威を明らかにするために、ローカルエージェントハーネスにおけるマルチステップトロイの木馬攻撃を特定するために設計されたベンチマークであるClawTrojanを紹介する。 GPT-5.4を使用したOpenClawスタイルのシミュレーションワークスペースでは、ClawTrojanは95.5%の攻撃成功率(ASR)に達した。この脅威に対処するために,DASGuardを提案する。DASGuardは,コントロールライクなテキストをセンシティブなローカルファイルでスキャンし,その起源を辿り,信頼されたソースから発生しないコントロールコンテンツを除去する。この結果から, DASGuardは, 実行時の攻撃ブロックと作業空間への衛生的コミットを組み合わせることで, 強力な動的防御を実現することがわかった。

論文の概要: From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

関連論文リスト