論文の概要: KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference
- arxiv url: http://arxiv.org/abs/2605.12471v1
- Date: Tue, 12 May 2026 17:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.070925
- Title: KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference
- Title(参考訳): KV-Fold:ロングコンテキスト推論のためのワンステップKVキャッシュ再帰
- Authors: Alireza Nadali, Patrick Cooper, Ashutosh Trivedi, Alvaro Velasquez,
- Abstract要約: KV-Foldは、キー値(KV)キャッシュを列チャンク上の左折り重なりのアキュムレータとして扱う、トレーニング不要な長文推論プロトコルである。
各ステップで、モデルは蓄積されたキャッシュに条件付けられた次のチャンクを処理し、新しく生成されたキーと値を付加し、拡張されたキャッシュを前方に渡す。
Llama-3.1-8Bでは、16Kから128Kのトークンのコンテキストにまたがる152のトライアルで100%の正確なマッチ検索を実現し、単一の40GB GPUのメモリ制限内に留まっている。
- 参考スコア(独自算出の注目度): 9.84177443010824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KV-Fold, a simple, training-free long-context inference protocol that treats the key-value (KV) cache as the accumulator in a left fold over sequence chunks. At each step, the model processes the next chunk conditioned on the accumulated cache, appends the newly produced keys and values, and passes the enlarged cache forward; the same one-step update is applied repeatedly, analogous to foldl in functional programming. Building on the KV cache concatenation primitive introduced for latent multi-agent communication, we repurpose it as a chunk-to-chunk recurrence for long-context inference. When processing chunk t, the model attends to the KV cache carried from earlier chunks as a prefix, reusing its internal state across segments without modifying or retraining the model. Despite its simplicity, the induced recurrence is stable: per-step drift rises briefly and then saturates into a flat plateau that persists across deep chains. This plateau is insensitive to a 10,000x change in numerical precision, robust across chunk sizes, and consistent across model families. At the task level, KV-Fold preserves exact information over long distances. On a needle-in-a-haystack benchmark, it achieves 100% exact-match retrieval across 152 trials spanning contexts from 16K to 128K tokens and chain depths up to 511 on Llama-3.1-8B, while remaining within the memory limits of a single 40GB GPU. Compared to streaming methods, which trade fidelity for bounded memory, KV-Fold maintains long-range retrieval while operating as a sequence of tractable forward passes. Overall, our results show that frozen pretrained transformers already support a stable form of KV-cache recurrence, providing a practical route to long-context inference without architectural changes or training.
- Abstract(参考訳): KV-Foldは、キー値(KV)キャッシュを列チャンク上の左折りたたみ器として扱う、単純でトレーニング不要な長文推論プロトコルである。
各ステップにおいて、モデルは蓄積されたキャッシュに条件付き次のチャンクを処理し、新しく生成されたキーと値を付加し、拡張されたキャッシュを前方に通過する。
遅延マルチエージェント通信のために導入されたKVキャッシュ結合プリミティブに基づいて、長文推論のためのチャンク・ツー・チャンクの繰り返しとして再利用する。
チャンクtを処理する場合、モデルは以前のチャンクから運ばれたKVキャッシュにプレフィックスとして参加し、モデルを変更または再トレーニングすることなくセグメント全体の内部状態を再利用する。
その単純さにもかかわらず、誘発される再発は安定であり、ステップごとのドリフトは一時的に上昇し、深い鎖にまたがる平らな台地へと飽和する。
この台地は1万倍の精度の数値変化に敏感であり、チャンクサイズで頑丈であり、モデルファミリで一貫している。
タスクレベルでは、KV-Foldは長距離にわたって正確な情報を保持する。
ニードル・イン・ア・ヘイスタックのベンチマークでは、16Kから128KのトークンとLlama-3.1-8Bのチェーン深さのコンテキストにまたがる152回の試行で100%正確なマッチング検索を達成し、単一の40GB GPUのメモリ限界内に留まる。
KV-Foldは、有界メモリに対して忠実さを交換するストリーミング方式と比較して、トラクタブルフォワードパスのシーケンスとして動作しながら、長距離検索を継続する。
以上の結果から, 凍結事前学習型トランスフォーマーは, KV-cache 再帰の安定な形態をすでにサポートしており, アーキテクチャ変更やトレーニングを伴わずに, 長文推論への実践的な経路を提供することができた。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs? [79.58770714228983]
言語モデルは、書籍要約のようなタスクに対して、ますます長いコンテキストを扱う。
これによりキーバリュー(KV)キャッシュのメモリコストが増大する。
以前の多くの研究でKVをメモリから外す方法が提案されているが、そのアプローチは好ましい設定に適合している。
KVフットプリント*は、記憶中のKVエントリの量と寿命の両方を考慮し、統一された計量として提案する。
論文 参考訳(メタデータ) (2025-06-20T16:21:12Z) - RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression [25.190765258589707]
トレーニング不要なKVキャッシュ圧縮戦略であるRocketKVについて述べる。
第1段階では、入力シーケンストークンに対して粗粒永久KVキャッシュ消去を行う。
第2段階では、微粒のトップkスパースアテンションを行うために、ハイブリッドスパースアテンション方式を採用する。
論文 参考訳(メタデータ) (2025-02-19T19:12:46Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。