論文の概要: Whose Narrative is it Anyway? A KV Cache Manipulation Attack
- arxiv url: http://arxiv.org/abs/2511.12752v1
- Date: Sun, 16 Nov 2025 19:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.519568
- Title: Whose Narrative is it Anyway? A KV Cache Manipulation Attack
- Title(参考訳): 一体誰なのか? KVキャッシュ操作攻撃
- Authors: Mukkesh Ganesh, Kaushik Iyer, Arun Baalaaji Sankar Ananthan,
- Abstract要約: ヒストリースワッピング(History Swapping)は、KVキャッシュを操作して、ユーザ側のプロンプトを変更することなくモデル生成を操る、新しいブロックレベルの攻撃である。
この研究は、KVキャッシュが、文脈だけでなくトピックの軌跡や構造的計画もエンコードしているため、セキュリティ分析の重要なベクタであることを示している。
- 参考スコア(独自算出の注目度): 1.1011268090482578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Key Value(KV) cache is an important component for efficient inference in autoregressive Large Language Models (LLMs), but its role as a representation of the model's internal state makes it a potential target for integrity attacks. This paper introduces "History Swapping," a novel block-level attack that manipulates the KV cache to steer model generation without altering the user-facing prompt. The attack involves overwriting a contiguous segment of the active generation's cache with a precomputed cache from a different topic. We empirically evaluate this method across 324 configurations on the Qwen 3 family of models, analyzing the impact of timing, magnitude, and layer depth of the cache overwrite. Our findings reveal that only full-layer overwrites can successfully hijack the conversation's topic, leading to three distinct behaviors: immediate and persistent topic shift, partial recovery, or a delayed hijack. Furthermore, we observe that high-level structural plans are encoded early in the generation process and local discourse structure is maintained by the final layers of the model. This work demonstrates that the KV cache is a significant vector for security analysis, as it encodes not just context but also topic trajectory and structural planning, making it a powerful interface for manipulating model behavior.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、自己回帰型大規模言語モデル(LLM)における効率的な推論のための重要なコンポーネントであるが、モデルの内部状態の表現としての役割は、完全性攻撃の潜在的ターゲットとなる。
本稿では,KVキャッシュを動作させるブロックレベル攻撃である"History Swapping"を紹介し,ユーザ側のプロンプトを変更することなくモデル生成をステアリングする。
この攻撃では、アクティブジェネレーションのキャッシュの連続したセグメントを別のトピックから事前計算されたキャッシュで上書きする。
Qwen 3 モデルの 324 構成に対して,この手法を実験的に評価し,キャッシュ上書きのタイミング,大きさ,層深さの影響を解析した。
以上の結果から,会話の話題をハイジャックできるのは全層オーバーライトのみであり,即時かつ永続的なトピックシフト,部分的回復,遅延的ハイジャックの3つの特徴があることがわかった。
さらに、生成過程の早い段階で高レベル構造計画が符号化され、モデルの最終層によって局所的な談話構造が維持されるのを観察する。
この研究は、KVキャッシュが文脈だけでなくトピックの軌跡や構造的計画もエンコードしているため、セキュリティ分析にとって重要なベクターであることを示している。
関連論文リスト
- Stateful KV Cache Management for LLMs: Balancing Space, Time, Accuracy, and Positional Fidelity [0.0]
キーバリュー(KV)キャッシュは、大規模言語モデル(LLM)における効率的な自己回帰推論に不可欠である
本稿では,KVキャッシュ管理戦略とメタラマ/メタラマ-3-8b-インストラクトのようなモデルのアーキテクチャ的コンテキスト制限との相互作用について検討する。
論文 参考訳(メタデータ) (2025-10-23T18:22:00Z) - Can Transformer Memory Be Corrupted? Investigating Cache-Side Vulnerabilities in Large Language Models [0.0]
本稿では,制御された大きさと周波数で鍵ベクトルをキャッシュするモジュラーフレームワークであるMalicious Token Injection(MTI)を紹介する。
実験の結果,MTI は GPT-2 および LLaMA-2/7B の次トーケン分布と下流タスク性能を著しく変化させ,検索強化およびエージェント推論パイプラインの安定化を図った。
論文 参考訳(メタデータ) (2025-10-20T02:04:18Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - A Method for Building Large Language Models with Predefined KV Cache Capacity [11.710667043543545]
境界キャッシュ変換器(BCT)は、従来のKVキャッシュの過剰なメモリ消費問題に対処する。
キー値ベクトル列を動的に更新することにより、BCTは限られたキャッシュ容量内で効率的な推論を実現する。
実験の結果,BCTは推論品質を維持しながらメモリ使用量を大幅に削減することがわかった。
論文 参考訳(メタデータ) (2024-11-24T11:30:00Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。