論文の概要: ClawGuard: Out-of-Band Detection of LLM Agent Workflow Hijacking via EM Side Channel
- arxiv url: http://arxiv.org/abs/2605.06205v1
- Date: Thu, 07 May 2026 13:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.817247
- Title: ClawGuard: Out-of-Band Detection of LLM Agent Workflow Hijacking via EM Side Channel
- Title(参考訳): ClawGuard:EMサイドチャネル経由のLLMエージェントワークフローハイジャックのアウト・オブ・バンド検出
- Authors: Leo Linqian Gan, Jeffery Wu, Longyuan Ge, Lanqing Yang, Yonghao Song, Jingkai Zhang, Haojia Jin, Weiyi Wang, Guangtao Xue,
- Abstract要約: ClawGuardは、電磁(EM)エマニュエーションを使って使用状況を監査するアウトオブバンドOSモニタである。
ClawGuardはAUCの0.9945を達成し、100%真陽性と1.16%偽陽性の攻撃を検知した。
- 参考スコア(独自算出の注目度): 8.303128905299253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous LLM agents face a critical security risk known as workflow hijacking, where attackers subtly alter tool and skill invocations. Existing defenses rely on host-internal telemetry (such as audit logs), which can be forged if the host OS is compromised. To solve this, we introduce ClawGuard, a passive, out-of-band monitor that audits LLM-agent workflows using electromagnetic (EM) emanations. Because distinct agent skills create unique hardware usage patterns (computation, DRAM, network blocking), they emit measurable, macroscopic EM envelopes. External software-defined radios (SDRs) capture these physical signals. Using a drift-aware pipeline with 320-dimensional features, ClawGuard converts RF streams into physical evidence. Evaluated on a 7.82TB RF corpus, ClawGuard achieved an AUC of 0.9945, detecting attacks with a 100% true-positive rate and a 1.16% false-positive rate. This proves passive EM sensing is a practical, forge-resistant physical check against compromised host software.
- Abstract(参考訳): 自律LLMエージェントはワークフローハイジャックとして知られる重要なセキュリティリスクに直面しており、攻撃者はツールやスキルの呼び出しを微妙に変更する。
既存の防御はホスト内部のテレメトリ(監査ログなど)に依存しており、ホストOSが侵害された場合に偽造することができる。
この問題を解決するために、電磁(EM)エマニュエーションを用いてLCMエージェントワークフローを監査する受動的帯域外モニタであるClawGuardを導入する。
異なるエージェントスキルは独自のハードウェア使用パターン(計算、DRAM、ネットワークブロッキング)を作成するため、測定可能なマクロなEMエンベロープを出力する。
外部ソフトウェア定義無線(SDR)は、これらの物理信号をキャプチャする。
320次元の特徴を持つドリフト対応パイプラインを使用して、ClawGuardはRFストリームを物理的証拠に変換する。
7.82TBのRFコーパスで評価され、ClawGuardはAUCの0.9945を達成し、100%真陽性と1.16%偽陽性の攻撃を検知した。
これは、パッシブEMセンシングが、侵入されたホストソフトウェアに対する実用的な、フォージ耐性の物理的チェックであることを証明している。
関連論文リスト
- ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems [56.613157564882925]
悪意のある行動は、一見良心的なツールに埋め込まれ、エージェントの実行を静かにハイジャックしたり、機密データをリークしたり、無許可のアクションをトリガーしたりする。
影響は拡大しているが、このような脅威を評価するための包括的なベンチマークは今のところ存在しない。
実ネットワークの相互作用を観測してサプライチェーン中毒を検出するネットワークレベルのガードレールフレームワークであるShieldNetを提案する。
論文 参考訳(メタデータ) (2026-04-06T05:15:00Z) - Robust Safety Monitoring of Language Models via Activation Watermarking [8.322320917323609]
大型言語モデル(LLM)は、武器製造指示やマルウェアの書き方などの機密情報を明らかにするために誤用されることがある。
LLMプロバイダは、推論中に安全でない振る舞いを検出し、フラグを付けるために$emphmonitoring$に依存している。
LLMプロバイダはセキュリティメカニズムをパッチできないため、アダプティブアタッカーは大きな懸念事項である。
論文 参考訳(メタデータ) (2026-03-24T13:13:23Z) - AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations [38.49666480491258]
LLMエージェントは間接プロンプト注入(IPI)に対して非常に脆弱である
本稿では,特定のツールコールが生成される理由を問うことでエージェントをセキュアにする,アクションレベルの因果属性という新しいパラダイムを提案する。
我々はこのパラダイムを、並列対実テストに基づくランタイムディフェンスであるAttriGuardでインスタンス化する。
論文 参考訳(メタデータ) (2026-03-11T13:23:46Z) - Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace [0.0]
自動生成されたURLプレビューに埋め込まれた敵対的命令は、サイレント・エクスプレスと呼ばれるシステムレベルのリスクをもたらす可能性があることを示す。
完全にローカルで再現可能なテストベッドを使用して、悪意のあるWebページがエージェントを誘導し、機密性の高いランタイムコンテキストを透過するアウトバウンドリクエストを発行できることを実証する。
qwen2.5:7bをベースとした480の実験では、攻撃は高い確率 (P (exress) =0.89) で成功し、95%の攻撃は出力ベースの安全チェックでは検出されない。
論文 参考訳(メタデータ) (2026-02-25T22:26:23Z) - MirrorGuard: Toward Secure Computer-Use Agents via Simulation-to-Real Reasoning Correction [16.58862217164395]
実世界のCUAセキュリティを改善するためにシミュレーションベースのトレーニングを利用するプラグアンドプレイディフェンスフレームワークであるMirrorGuardを紹介する。
MirrorGuard氏は、CUAの安全でない推論チェーンをインターセプトし、修正して、安全でないアクションを生成し、実行することを学ぶ。
我々の研究は、シミュレーションによる防御は、エージェントの基本的な実用性を維持しながら、堅牢で現実世界の保護を提供することができることを証明している。
論文 参考訳(メタデータ) (2026-01-19T08:32:09Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Mate! Are You Really Aware? An Explainability-Guided Testing Framework
for Robustness of Malware Detectors [49.34155921877441]
マルウェア検出装置のロバスト性を示すための説明可能性誘導型およびモデルに依存しないテストフレームワークを提案する。
次に、このフレームワークを使用して、操作されたマルウェアを検出する最先端のマルウェア検知器の能力をテストする。
我々の発見は、現在のマルウェア検知器の限界と、その改善方法に光を当てた。
論文 参考訳(メタデータ) (2021-11-19T08:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。