論文の概要: From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors
- arxiv url: http://arxiv.org/abs/2605.31042v1
- Date: Fri, 29 May 2026 09:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.499137
- Title: From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors
- Title(参考訳): プロンプトインジェクションからパーシスタントコントロール:トロイの木馬のバックドアに対する防腐剤ハーネス
- Authors: Jiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen,
- Abstract要約: ローカルエージェントハーネスにおけるマルチステップトロイの木馬攻撃を識別するベンチマークであるClawTrojanを紹介する。
そこで我々は,DASGuardを提案する。DASGuardは,コントロールライクなテキストをセンシティブなローカルファイルでスキャンし,その起源を辿り,信頼されたソースから派生しないコントロールコンテンツを除去する。
この結果から, DASGuardは, 実行時の攻撃ブロックと作業空間への衛生的コミットを組み合わせることで, 強力な動的防御を実現することがわかった。
- 参考スコア(独自算出の注目度): 89.92617739143846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents are evolving from conversational chatbots to operational tools in real-world workspaces. In local agentic harnesses, an LLM can read and write files, call tools, and reuse workspace state across sessions. While such capabilities enhance utility, they also expose a new attack surface for attackers. Attackers can embed a prompt injection within a file or tool output. Agents may read this hidden instruction, store it, and execute it later. In this multi-step trojan attack paradigm, no individual step appears malicious on its own, but these steps can collectively turn untrusted text into persistent control content. However, existing defenses often inspect each step in isolation. As a result, they can block a clear harmful action, but fail to detect the earlier write operation that plants the backdoor. To reveal this threat, we introduce ClawTrojan, a benchmark designed to identify multi-step trojan attacks in local agentic harnesses. In an OpenClaw-style simulated workspace with GPT-5.4, ClawTrojan reaches a 95.5% attack success rate (ASR), while existing single-turn prompt-injection attacks produce near-zero ASR on the same model. To address this threat, we propose DASGuard, which scans control-like text in sensitive local files, traces its origin, and removes control content that does not originate from a trusted source. Our results show that DASGuard achieves strong dynamic defense by combining runtime attack blocking with sanitized commits to the workspace.
- Abstract(参考訳): LLMエージェントは、会話チャットボットから、現実世界のワークスペースにおける運用ツールへと進化している。
ローカルエージェントハーネスでは、LCMはファイルの読み込みと書き込み、ツールの呼び出し、セッション間のワークスペース状態の再利用が可能である。
このような機能は実用性を高める一方で、攻撃者に対する新たな攻撃面を公開する。
攻撃者はファイルやツール出力にプロンプトインジェクションを埋め込むことができる。
エージェントはこの隠れた命令を読み取って保存し、後で実行する。
このマルチステップのトロイの木馬攻撃パラダイムでは、個々のステップが悪意あるようには見えないが、これらのステップは信頼できないテキストをまとめて永続的な制御コンテンツに変換することができる。
しかし、既存の防衛は、しばしば独立したステップで各ステップを検査する。
その結果、明確な有害な動作をブロックできるが、バックドアを植える初期の書き込み操作を検出できない。
この脅威を明らかにするために、ローカルエージェントハーネスにおけるマルチステップトロイの木馬攻撃を特定するために設計されたベンチマークであるClawTrojanを紹介する。
GPT-5.4を使用したOpenClawスタイルのシミュレーションワークスペースでは、ClawTrojanは95.5%の攻撃成功率(ASR)に達した。
この脅威に対処するために,DASGuardを提案する。DASGuardは,コントロールライクなテキストをセンシティブなローカルファイルでスキャンし,その起源を辿り,信頼されたソースから発生しないコントロールコンテンツを除去する。
この結果から, DASGuardは, 実行時の攻撃ブロックと作業空間への衛生的コミットを組み合わせることで, 強力な動的防御を実現することがわかった。
関連論文リスト
- BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。
我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:59:00Z) - BLAST: A Stealthy Backdoor Leverage Attack against Cooperative Multi-Agent Deep Reinforcement Learning based Systems [14.936720751131434]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。
我々は,c-MADRLに対して,単一のエージェントに唯一のバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する新しいバックドアレバレッジアタックを提案する。
論文 参考訳(メタデータ) (2025-01-03T01:33:29Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement
Learning [19.524789009088245]
マルチエージェント競争強化学習システムにおけるバックドア検出の問題を提案する。
PolicyCleanseは、活性化されたトロイの木馬のエージェントがいくつかの時間経過後に顕著に低下した性質に基づいている。
PolicyCleanseとともに、検出されたバックドアを効果的に緩和できる機械学習ベースのアプローチも設計します。
論文 参考訳(メタデータ) (2022-02-08T02:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。