論文の概要: KV Cache Recycling to Expand Usable Context Capacity in Low Parameter LLMs
- arxiv url: http://arxiv.org/abs/2512.11851v1
- Date: Thu, 04 Dec 2025 17:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.724508
- Title: KV Cache Recycling to Expand Usable Context Capacity in Low Parameter LLMs
- Title(参考訳): 低パラメータLDMにおける使用可能なコンテクスト容量拡大のためのKVキャッシュリサイクル
- Authors: Prashant Pandey,
- Abstract要約: 我々は過去のアクティベーションのキャッシュを構築し、文の埋め込みによってエントリを取得し、キャッシュされたプロンプトが新しい入力の正確なプレフィックスであるときに過去のキー値を再利用する。
リサイクルとベースラインの実行をレイテンシと出力の忠実度で比較し、トークンの再利用深度をログ化する。
テストでは、プレフィックスオーバーラップが存在する場合、出力セマンティクスの材料劣化がなく、オーバーラップがない場合、一貫したスピードアップを観察する。
- 参考スコア(独自算出の注目度): 2.261486598306908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether attention key value (KV) states computed for one prompt for a small LLM can be reused to accelerate inference on a new similar prompt, giving an increase to the space to its context memory using an approach called token recycling. Using a standard Hugging Face setup with DialoGPT-medium (a 345M parameter GPT-2 style decoder trained on 147M Reddit exchanges, 2005 to 2017) as the testbed, we build a cache of past activations and get entries by sentence embeddings, then reuse cached past key values when the cached prompt is an exact prefix of the new input. We compare recycled vs. baseline runs on latency and output fidelity, and log reuse depth in tokens. Reproducibility requires no model modifications, cached KVs are serialized to the CPU, reloaded, and supplied to the generate function to continue decoding from the cached prefix. In tests, we observe consistent speedups when prefix overlap exists, with no material degradation in output semantics, and when overlap is absent, behavior matches baseline.
- Abstract(参考訳): 注意鍵値(KV)状態が小さなLSMの1つのプロンプトに対して計算されるかどうかを再利用して、新しい類似のプロンプトの推論を加速し、トークンリサイクルと呼ばれるアプローチを用いて、そのコンテキストメモリへの空間を増大させる。
テストベッドとしてDialoGPT-medium(1億1700万のReddit交換でトレーニングされた345MパラメータGPT-2スタイルのデコーダ)を用いた標準的なHugging Faceセットアップを用いて、過去のアクティベーションのキャッシュを構築し、文の埋め込みによってエントリを取得し、キャッシュされたプロンプトが新しい入力の正確なプレフィックスである場合にキャッシュされた過去のキー値を再利用する。
リサイクルとベースラインの実行をレイテンシと出力の忠実度で比較し、トークンの再利用深度をログ化する。
再現性はモデルの変更を必要とせず、キャッシュされたKVはCPUにシリアライズされ、リロードされ、キャッシュされたプレフィックスからの復号を継続するために生成関数に供給される。
テストでは、プレフィックスオーバーラップが存在する場合、出力セマンティクスの材料劣化がなく、オーバーラップがない場合、動作がベースラインと一致しない場合、一貫したスピードアップを観察する。
関連論文リスト
- EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse [22.769631685777494]
クロスリクエストキー値 (KV) キャッシュの再利用は、中間計算を格納し再利用する手法である。
タスクを埋め込むため、KVキャッシュの再利用は、しばしばプロンプトフォーマットの構造によって妨げられる。
我々は、KVキャッシュの再利用性能を解放するFIMの変換プロンプトフォーマットであるEFIMを提案する。
論文 参考訳(メタデータ) (2025-05-28T02:07:03Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion [15.344568214955688]
大規模な言語モデル(LLM)は、必要なコンテキストを提供するために、入力に複数のテキストチャンクを組み込むことが多い。
長いLLM入力のプリフィルを高速化するため、別のLLM入力のプレフィックスとしてコンテキストが再利用された場合、テキストのKVキャッシュをプリコンプリートし、KVキャッシュを再使用することができる。
本稿では,KVキャッシュを高速に組み合わせて,高価なプリフィルと同世代の品質を実現する方法を提案する。
論文 参考訳(メタデータ) (2024-05-26T06:00:17Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。