論文の概要: RedVisor: Reasoning-Aware Prompt Injection Defense via Zero-Copy KV Cache Reuse
- arxiv url: http://arxiv.org/abs/2602.01795v1
- Date: Mon, 02 Feb 2026 08:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.007779
- Title: RedVisor: Reasoning-Aware Prompt Injection Defense via Zero-Copy KV Cache Reuse
- Title(参考訳): RedVisor:ゼロコピーKVキャッシュ再利用による推論対応プロンプトインジェクションディフェンス
- Authors: Mingrui Liu, Sixiao Zhang, Cheng Long, Kwok-Yan Lam,
- Abstract要約: 本稿では,防止戦略のシームレスな統合による検出システムの説明可能性を合成するフレームワークであるRedVisorを提案する。
RedVisorは、きめ細かい推論パスを利用して同時に攻撃を検出し、モデルの安全な応答を誘導する最初のアプローチである。
実験により、RedVisorは検出精度とスループットにおいて最先端の防御性能を上回り、無視可能なユーティリティ損失を発生させることを示した。
- 参考スコア(独自算出の注目度): 47.85771791033142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly vulnerable to Prompt Injection (PI) attacks, where adversarial instructions hidden within retrieved contexts hijack the model's execution flow. Current defenses typically face a critical trade-off: prevention-based fine-tuning often degrades general utility via the "alignment tax", while detection-based filtering incurs prohibitive latency and memory costs. To bridge this gap, we propose RedVisor, a unified framework that synthesizes the explainability of detection systems with the seamless integration of prevention strategies. To the best of our knowledge, RedVisor is the first approach to leverage fine-grained reasoning paths to simultaneously detect attacks and guide the model's safe response. We implement this via a lightweight, removable adapter positioned atop the frozen backbone. This adapter serves a dual function: it first generates an explainable analysis that precisely localizes the injection and articulates the threat, which then explicitly conditions the model to reject the malicious command. Uniquely, the adapter is active only during this reasoning phase and is effectively muted during the subsequent response generation. This architecture yields two distinct advantages: (1) it mathematically preserves the backbone's original utility on benign inputs; and (2) it enables a novel KV Cache Reuse strategy, eliminating the redundant prefill computation inherent to decoupled pipelines. We further pioneer the integration of this defense into the vLLM serving engine with custom kernels. Experiments demonstrate that RedVisor outperforms state-of-the-art defenses in detection accuracy and throughput while incurring negligible utility loss.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索されたコンテキスト内に隠された敵の命令がモデルの実行フローをハイジャックするPrompt Injection(PI)攻撃に対して、ますます脆弱になっている。
予防ベースの微調整はしばしば「調整税」を通じて一般用途を低下させ、検出ベースのフィルタリングは遅延やメモリコストを禁止している。
このギャップを埋めるために,検知システムの説明可能性と防止戦略のシームレスな統合を統合した統合フレームワークであるRedVisorを提案する。
私たちの知る限りでは、RedVisorは、きめ細かい推論パスを利用して同時に攻撃を検出し、モデルの安全な応答を誘導する最初のアプローチです。
凍結したバックボーンの上に、軽量で取り外し可能なアダプタを配置して実装する。
インジェクションを正確にローカライズし、脅威を明確に表現する説明可能な分析を生成し、その後、モデルに悪意のあるコマンドを拒否するように明示的に要求する。
アダプタは、この推論フェーズでのみアクティブであり、その後の応答生成で効果的にミュートされる。
このアーキテクチャは,(1) バックボーンの本来のユーティリティを数学的に良性な入力で保存し,(2) 疎結合パイプラインに固有の冗長なプリフィル計算を排除し,新しいKVキャッシュ再利用戦略を可能にする。
私たちは、このディフェンスをカスタムカーネルを備えたvLLMサービスエンジンに統合する先駆者です。
実験により、RedVisorは検出精度とスループットにおいて最先端の防御性能を上回り、無視可能なユーティリティ損失を発生させることを示した。
関連論文リスト
- VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit [44.24310459184061]
オープン環境で動作するLLMエージェントは、間接的なプロンプトインジェクションによるエスカレーションリスクに直面している。
制約的分離から検証前コミットプロトコルへパラダイムをシフトするフレームワークである textbfVIGIL を提案する。
論文 参考訳(メタデータ) (2026-01-09T12:19:49Z) - V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering [3.0823377252469144]
即時注射攻撃は 重大な セキュリティ上の脅威として現れました
既存の防御機構は、有効性と一般化性の間のトレードオフに直面している。
本稿では,デュアルチャネル機能融合検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T06:01:19Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Predictive-CSM: Lightweight Fragment Security for 6LoWPAN IoT Networks [0.0]
この研究は、この問題に対してより適応的で行動に配慮したアプローチをとる防衛戦略を探求する。
予測CSM(Predictive-CSM)と呼ばれるシステムでは,2つの軽量機構が組み合わさっている。
我々は,初期フラグメントインジェクション,リプレイヘッダ,フェイクデータによる浸水など,一連の攻撃シミュレーションを用いて,本システムをテストに適用した。
論文 参考訳(メタデータ) (2025-06-02T15:15:18Z) - CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。
この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。
本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文 参考訳(メタデータ) (2025-04-29T23:42:21Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。