論文の概要: Training-Free Exponential Extension of Sliding Window Context with Cascading KV Cache
- arxiv url: http://arxiv.org/abs/2406.17808v1
- Date: Mon, 24 Jun 2024 03:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 17:46:26.693851
- Title: Training-Free Exponential Extension of Sliding Window Context with Cascading KV Cache
- Title(参考訳): カスケードKVキャッシュを用いたスライディングウィンドウコンテキストの学習自由指数拡張
- Authors: Jeffrey Willette, Heejun Lee, Youngwan Lee, Myeongjae Jeon, Sung Ju Hwang,
- Abstract要約: キャッシュサイズが同じ長めのウィンドウコンテキストを格納する機構を提案する。
我々は,LongBench(LongBench)が5.6%向上し,ストリームパープレキシティ(PG19)が1.2%,言語理解(MMLU STEM)が0.6%向上したことを示す。
- 参考スコア(独自算出の注目度): 49.608367376911694
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The context window within a transformer provides a form of active memory for the current task, which can be useful for few-shot learning and conditional generation, both which depend heavily on previous context tokens. However, as the context length grows, the computational cost increases quadratically. Recent works have shown that saving a few initial tokens along with a fixed-sized sliding window leads to stable streaming generation with linear complexity in transformer-based Large Language Models (LLMs). However, they make suboptimal use of the fixed window by naively evicting all tokens unconditionally from the key-value (KV) cache once they reach the end of the window, resulting in tokens being forgotten and no longer able to affect subsequent predictions. To overcome this limitation, we propose a novel mechanism for storing longer sliding window contexts with the same total cache size by keeping separate cascading sub-cache buffers whereby each subsequent buffer conditionally accepts a fraction of the relatively more important tokens evicted from the previous buffer. Our method results in a dynamic KV cache that can store tokens from the more distant past than a fixed, static sliding window approach. Our experiments show improvements of 5.6% on long context generation (LongBench), 1.2% in streaming perplexity (PG19), and 0.6% in language understanding (MMLU STEM) using LLMs given the same fixed cache size. Additionally, we provide an efficient implementation that improves the KV cache latency from 1.33ms per caching operation to 0.54ms, a 59% speedup over previous work.
- Abstract(参考訳): 変換器内のコンテキストウィンドウは、現在のタスクにアクティブメモリの形式を提供する。これは、以前のコンテキストトークンに大きく依存する、数ショットの学習と条件生成に有用である。
しかし、文脈の長さが長くなるにつれて、計算コストは2次的に増加する。
最近の研究は、いくつかの初期トークンを固定サイズのスライディングウィンドウと共に保存すると、変換器ベースのLarge Language Models (LLMs) において、線形複雑化を伴う安定したストリーミング生成につながることを示した。
しかし、ウィンドウの端に到達すると、すべてのトークンをキー値(KV)キャッシュから無条件に排除し、固定ウィンドウを最適に使用することで、トークンは忘れられ、その後の予測に影響を与えなくなる。
この制限を克服するために、カスケードサブキャッシュバッファを個別に保持することにより、より長いスライディングウィンドウコンテキストを同じキャッシュサイズで保存する機構を提案する。
提案手法は,固定された静的なスライディングウィンドウアプローチよりも遠い過去のトークンを格納可能な動的KVキャッシュを実現する。
実験の結果,LongBenchが5.6%,PG19が1.2%,MMLU STEMが0.6%,LLMが0.6%であった。
さらに、KVキャッシュのレイテンシをキャッシュ当たり1.33msから0.54msに改善する効率的な実装も提供します。
関連論文リスト
- CacheFocus: Dynamic Cache Re-Positioning for Efficient Retrieval-Augmented Generation [6.544043376474944]
LLM(Large Language Models)は、入力長と計算コストの制限により、様々な言語タスクを排他的に拡張する。
既存のアプローチであるtextemdashは、これらの問題を部分的に緩和するが、しばしば追加のトレーニングを必要とするか、より長い入力でパフォーマンス劣化に悩まされる。
textbftextitCacheFocusは、長さの正規化を強化し、さらなるトレーニングを行わずに推論遅延を低減する方法である。
論文 参考訳(メタデータ) (2025-02-16T12:33:16Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。
EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。