論文の概要: Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection
- arxiv url: http://arxiv.org/abs/2604.03270v1
- Date: Sun, 22 Mar 2026 11:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.576341
- Title: Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection
- Title(参考訳): 知識パック:KVキャッシュインジェクションによるゼロトークンの知識提供
- Authors: Andrey Pustovit,
- Abstract要約: KVキャッシュは同じ知識をトークンコストゼロで提供する。
KVインタフェースは、RAGができない動作ステアリングを可能にする。
トレーニングなし、体重調整なし。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RAG wastes tokens. We propose Knowledge Packs: pre-computed KV caches that deliver the same knowledge at zero token cost. For causal transformers, the KV cache from a forward pass on text F is identical to what a joint pass on F+q would produce - this follows directly from the causal mask. The equivalence is exact but fragile: wrong chat template formatting causes 6-7pp degradation, which we believe explains prior claims of KV outperforming RAG. With correct formatting: zero divergences across 700 questions on Qwen3-8B and Llama-3.1-8B, up to 95% token savings. The KV interface also enables behavioral steering that RAG cannot do. Because RoPE rotates keys but leaves values untouched, contrastive deltas on cached values can nudge model behavior while key arithmetic destroys coherence. The effect sits in mid-layer values (33-66%), independent directions are nearly orthogonal (cos~0) and compose, and both channels - knowledge and steering - run simultaneously at alpha<=0.7 without interference. No training, no weight modification.
- Abstract(参考訳): RAGはトークンを無駄にする。
我々は、トークンコストゼロで同じ知識を提供するプリコンパイルされたKVキャッシュであるナレッジパックを提案する。
因果変換器の場合、テキストFのフォワードパスからのKVキャッシュは、F+qのジョイントパスが生成するものと同一である。
不正なチャットテンプレートフォーマットは、6-7ppの劣化を引き起こすため、KVがRAGより優れているという以前の主張を説明すると、我々は信じている。
正しいフォーマット: Qwen3-8B と Llama-3.1-8B で 700 の質問に発散し、最大95%のトークンセーブを行う。
KVインターフェースはまた、RAGができない動作のステアリングを可能にする。
RoPEはキーを回転させるが、キーを変更せずに残すため、キャッシュされた値上の対照的なデルタは、キー演算がコヒーレンスを破壊する間、モデルの振舞いを損なうことがある。
効果は中間層(33-66%)にあり、独立方向はほぼ直交(cos~0)で構成され、知識と操舵の両方がアルファ<=0.7で同時に実行される。
トレーニングなし、体重調整なし。
関連論文リスト
- Learn by Surprise, Commit by Proof [0.0]
本稿では,自律的知識獲得のための自己学習後フレームワークを提案する。
通路が異常に高いパートーケン損失を発生させると、L SCPはそれをフラグ化し、モデルに自身の知識を明確にさせるQ&A連鎖を生成する。
学習強度は1つのパラメータ$r$で管理される。
論文 参考訳(メタデータ) (2026-04-02T12:17:10Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction [53.83828564664595]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
論文 参考訳(メタデータ) (2025-09-13T03:34:12Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - LagKV: Lag-Relative Information of the KV Cache Tells Which Tokens Are Important [13.45388421871017]
LagKVはKVの圧縮戦略であり、KV自体の直接の前方比較にのみ依存する。
メインストリーム推論プラットフォームに簡単に統合できる、完全に注意を払わないメソッドです。
我々の手法は、同じ圧縮比で、注意重みベースのメソッドであるHO$を50ドル以上で上回ります。
論文 参考訳(メタデータ) (2025-04-07T03:22:15Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers [16.576495786546612]
Vision Transformer (ViT) はコンピュータビジョンのバックボーンとして登場した。
近年の作業は、冗長なトークンをプルーニングまたはファンクションすることにより、自己保持層の二次コストを低減している。
ここでは,トークンの融合は情報損失を最小限に抑えるために,トークン間の多様な関係を考慮する必要があると論じる。
論文 参考訳(メタデータ) (2024-03-15T05:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。